Chinese Taalverwerking Op De Computer

FACULTEIT LETTEREN DEPARTEMENT OOSTERSE EN SLAVISCHE STUDIES KATHOLIEKE UNIVERSITEIT LEUVEN CHINESE TAALVERWERKING OP DE COMPUTER Deel I : Theoretisch Overzicht Promotor : Prof. Dr. Fred Truyen Verhandeling aangeboden tot het verkrijgen van de graad van licentiaat in de Sinologie door: Sébastien Bruggeman - 2001-2002 - VOORWOORD Dit theoretische overzicht handelt over de Chinese taalverwerking op de computer. Het heeft de bedoeling om zo volledig mogelijk te zijn, maar zal het helaas nooit kunnen zijn door de uitgebreidheid van dit onderwerp. Hoewel dit deel veel technische details bevat is er geen voorkennis vereist. Naast dit theoretisch overzicht is er ook nog een praktische handleiding voor mensen die Chinees in de praktijk op hun computer willen gebruiken. Ook voor dit deel is geen voorkennis vereist, wel wordt er gerekend op een basiskennis van Microsoft Windows. Het voorhanden hebben van een computer met internetverbinding maakt het mogelijk om alles onmiddellijk in de praktijk om te zetten. Het derde luik van deze verhandeling is een website. Op deze website kunnen extra documentatie, voorbeelden en links gevonden worden. Daarnaast kan men ook terecht op het forum voor extra vragen en antwoorden. Tot slot wens ik U nog veel leesplezier en hoop ik dat U door deze licentiaatsverhandeling een betere kijk krijgt op de Chinese taalverwerking op de computer. Sébastien Bruggeman Thesis Sébastien Bruggeman Pagina 2 Thesis Sébastien Bruggeman Pagina 3 INHOUDSTAFEL 0. Gebruikte conventies......................................................................................................11 1. Inleiding...........................................................................................................................14 1.1. Talen en schriften.....................................................................................................14 1.2. Vereenvoudiging van Chinese karakters..................................................................16 1.3. Typografie................................................................................................................18 1.4. Karakters en computers............................................................................................18 2. Karaktersets....................................................................................................................20 2.1. Westerse talen...........................................................................................................20 2.2. Oosterse talen...........................................................................................................22 2.2.1. Traditioneel Chinees.................................................................................................23 a) CCCII en EACC.......................................................................................................23 b) CNS..........................................................................................................................25 c) Big5..........................................................................................................................28 d) Big5+........................................................................................................................29 e) Big5E........................................................................................................................29 f) Hong Kong GCCS en SCS.......................................................................................30 2.2.2. Vereenvoudigd Chinees............................................................................................30 a) GB 1988-80..............................................................................................................30 b) GB 2312-80..............................................................................................................31 c) GB 6345.1-86...........................................................................................................31 d) GB 8565.2-88...........................................................................................................32 e) ISO-IR-165:1992......................................................................................................33 f) GB/T 12345-90.........................................................................................................34 g) GBK..........................................................................................................................34 h) GB 13000.1...............................................................................................................35 i) GB 18030-2000........................................................................................................36 j) Andere GB karaktersets............................................................................................37 2.3. Meertalige karaktersets.............................................................................................37 a) Unicode en ISO 10646.............................................................................................38 2.4. Conversie..................................................................................................................41 Thesis Sébastien Bruggeman Pagina 4 3. Codering..........................................................................................................................43 3.1. Westerse talen...........................................................................................................44 3.2. Chinees.....................................................................................................................44 a) HZ en EHZ...............................................................................................................44 b) ISO 2022...................................................................................................................46 c) EUC..........................................................................................................................47 d) GBK..........................................................................................................................48 e) Big5 en Big5+...........................................................................................................48 f) Overzicht..................................................................................................................48 3.3. Meertalig...................................................................................................................49 a) UCS..........................................................................................................................49 b) UTF...........................................................................................................................49 4. Hardware.........................................................................................................................52 4.1. Toetsenbord..............................................................................................................52 a) Uitspraak gebaseerd..................................................................................................53 b) Structuur gebaseerd..................................................................................................57 c) Combinatie uitspraak – structuur..............................................................................63 d) Directe invoer...........................................................................................................63 4.2. Andere......................................................................................................................64 5. Applicaties, toepassingen...............................................................................................65 5.1. Dos............................................................................................................................65 5.2. Microsoft Windows..................................................................................................65 a) Native Chinese Windows.........................................................................................65 b) Niet-Chinese Windows.............................................................................................66 5.3. Unix / Linux.............................................................................................................66 a) Native Chinese Linux...............................................................................................67 b) Niet-Chinese Linux..................................................................................................67 c) Linux in China & Taiwan.........................................................................................68 5.4. Apple........................................................................................................................69 5.5. Chinees en programmeertalen..................................................................................70 5.6. Chinees en databases................................................................................................72 Thesis Sébastien Bruggeman Pagina 5 6. Het Chinese internet.......................................................................................................74 7. Appendix.........................................................................................................................78 7.1. Bibliografie...............................................................................................................78

Chinese Taalverwerking Op De Computer

Iso/Iec Jtc1/Sc2/Wg2 N 3936 L2/10-385

Assessment of Options for Handling Full Unicode Character Encodings in MARC21 a Study for the Library of Congress

Combining Diacritical Marks Range: 0300–036F the Unicode Standard

Proposal for a Korean Script Root Zone LGR 1 General Information

Chapter 4 Formatting Text Copyright

The Not So Short Introduction to Latex2ε

Bopomofo Extended Range: 31A0–31BF

AIX Globalization

List of Approved Special Characters

Suggestions for the ISO/IEC 14651 CTT Part for Hangul

Jamo Pair Encoding: Subcharacter Representation-Based Extreme Korean Vocabulary Compression for Efficient Subword Tokenization

2 Hangul Jamo Auxiliary Canonical Decomposition Mappings