DDBM 特集2 4-1001(SQL Server)

Total Page:16

File Type:pdf, Size:1020Kb

DDBM 特集2 4-1001(SQL Server) 徹・底・研・究 2 特集 1 RDBMS の文字コード MS 漢字コードとUnicode の使いこなしがカギ RDBMS Windows OSに依存する SQL Server 文字コードの仕組み パート2では、Microsoft SQL Server の文字コードについて解説する。SQL Serverで扱える文字コ ードはWindows OSに依存するため、扱うデータの文字コードによってデータ型の使い分けなどに注意す る必要がある。そこで本パートでは、SQL Serverで使用できる文字コードである「MS 漢字コード(マイク ロソフトが策定)」と「Unicode」の解説を中心に、SQL Serverのデータ型との関係、JIS2004対応、 SQL Server Integration Services(SSIS)における文字コード変換などについて紹介する。 日本ユニシス株式会社 岡田朋之 OKADA, Tomoyuki /森嶋荘一郎 MORISHIMA, Shoichiro ように世界中には多くの文字があるが、特定の 文字集合と文字符号化方式の関係は必ずし 文字コードの基礎 国や言語で必要となる文字は限られる。そのた も1対1ではない。複数の文字集合を対象とす め、まず規格に含める文字の集まりと順番を定め る文字符号化方式や、同一文字集合を対象と SQL Serverで使用できる文字コードを説明 る。この文字の集まりと順番を定義したものを する複数の文字符号化方式がある。 する前に、その前提となる知識(文字コードと 「符号化文字集合(以下、文字集合)」と呼ぶ。 例えば、表3のようにSHIFT_JIS 文字符号化 Windowsでの文字コードの扱い)を説明する。 日本で利用される代表的な規格は表1に示 すと 方式は「JIS X 0201」と「JIS X 0208」という2 おりで ある 。 つの文字集合を対象とする。JIS X 0201、JIS 一方、コンピュータで文字を扱うには、これら X 0208の文字集合はSHIFT_JISとEUC-JPで 文 字 コ ードと は の文字集合をデータ列(ビット列)に割り当てる必 それぞれ別の文字コードに符号化できる。 「文字コード」とは、コンピュータ上で文字を表 要がある。これらの文字集合の文字をデータ列 現するために、符号化文字集合を特定の文字 に割り当てる方式を「文字符号化方式(エンコー 表3 : 文字集合と文字コードとの関連 符号化方式によって符号化したデータ列のこと ディング方式)」と呼ぶ。日本で利用されることの 文字集合 文字符号化方式 文字コード である。図1は、文字が文字コードに対応付け 多い文字符号化方式を表2に示す。 JIS X 0201 SHIFT_JIS シフト JIS JIS X 0208 EUC-JP 日本語 EUC されるまでの 過 程を表 わしたものである。 図 1 の 表1 : 主な符号化文字集合の規格 規格名 規定する主な文字 ASCII 半角英数字、英語で使用する記号 JIS X 0201 ASCIIで規定された文字と半角カタカナ 文字 英数字 JIS X 0208 ひ ら が な 、カ タ カ ナ 、漢 字( J I S 第 1 水 準 、J I S 第 2 水 準 )、英 数 字 、記 号 ひらがな、カタカナ ※符号化文字方式のShift_JISと文字コード JIS X 0212 JIS X 0208に収録されていない漢字(補助漢字) 漢字 のShift_JISを区別するため、文字コードの ギリシア文字 Shift_JISを「シフトJIS」と表現している JIS X 0213 JIS X 0208 に漢字(JIS第3水準、JIS第4水準)や記号などを追加 ハングル文字 など Unicode 世界中の文字と記号 ● 国で使用する文字 ● 言語で使う文字 表2 : 主な文字符号化方式 など目的に応じて選択する 文字符号化方式 対象とする文字集合 バイト数 備考 Shift_JIS JIS X 0201、JIS X 0208 1~2 符号化 文字符号化方式 文字コード バイト 文字集合 あ 82A0 UTF-8 Unicode 1~4 Web サイトや XMLドキュ 亜 889F バイト メントなどで使用される ① 8740 UTF-16 Unicode 2 バイト Windows NT 系の内部処 理で使用している ● ASCII ● SHIFT_JIS ● ANSI UTF-32 Unicode 4 バイト ● JIS X 0201 ● UTF-8 ● シフトJIS ※ EUC-JP JIS X 0201、JIS X 0208、 1~2 UNIX で使用される ● JIS X 0208 ● UTF-16 ● Unicode ● JIS X 0213 ● EUC-JP ● 日本語EUC JIS X 0212 バイト など など など ISO-2022-JP 半角カナを除くJIS X 0201、 1~2 電子メールなどで JIS X 0208 バイト 使用される 図1 : 文字から文字コードへの対応付け DB Magazine 2010 January MS 漢字コードとUnicode の使いこなしがカギ Windows OSに依存する SQL Server 文字コードの仕組み 2 表4 : Unicodeのバージョンと日本語の符号化文字集合との対応関係 Unicode バージョン 収録文字数 日本語の符号化文字集合との対応 第1面~第16面 Unicode 1.0.0 7,161 JIS X 0201 に対応 第1面 BMP(第0面) BMP(第0面) Unicode 1.0.1 28,359 JIS X 0208、JIS X 0212 に対応 Unicode 2.0 34,233 サロゲートペアの仕様が導入され、収録可能 上位サロゲート な文字数が増加。また、結合文字も仕様とし + D800h~DBFFh て定義 ( 1 0 2 4 個 ) 下位サロゲート DC00h~DFFFh 文字コードを計算※ ( 1 0 2 4 個 ) 実際にはサロゲート文字は割り当てられてい なかった Unicode 2.1 38,950 1面65536文字×16面=1,048,576文字 Unicode 3.0 49,259 第2面 Unicode 3.1 94,205 JIS X 0213:2004に一部対応 20B9Fh Unicode 3.2 95,211 JIS X 0213:2004 に正式対応 D842h + DF9Fh 叱 サロゲートペアに文字を割り当て (上位サロゲート) (下位サロゲート) Unicode 4.0 96,447 Unicode 5.0 99,089 ※第1面~第16面に収録されている文字コードは以下の数式で計算 文字コード値=(上位サロゲート-D800h)×400h+(下位サロゲート-DC00h)+10000h 図2 : サロゲート文字の仕組み バイトの文字と、「は」と文字合成用半濁点「゜」 を組み合わせた4バイトの文字の2種類が存在 る領域を単位として、全17面で構成される。面 す ることになる 。 MS 漢字コードとUnicode の先頭である第0面は「基本多言語面(BMP: Unicodeは、1991 年 10月に策定されたバージ 文字コードには多くの規格が存在するが、そ Basic Multilingual Plane)」と呼ばれ、欧米、ア ョン1.0.0から、収録文字を増やしながら現在まで の中から以降のトピックに関連するマイクロソフト ジア圏などの主要言語で用いる文字(日本語の 拡張されてきた。それに伴い、順次日本語で用 が策定した「MS 漢字コード」と「Unicode」につ 平仮名、片仮名、漢字なども含む)が定義され いる文 字も収 録されてきた。表4に、Unicodeの いて説明する。 ている。当初、UnicodeはBMPだけが定義さ バージョンとJIS規格文字の対応関係を示す。 MS漢字コードはJIS X 0201とJIS X 0208、 れ、16ビットの文字コードで表現できた。しかし、 および特殊文字(NEC特殊文字、NEC選定 アジア圏などの各国から文字の追加要求があり、 Windows で扱うことができる IBM拡張文字、IBM拡張文字)を文字集合と さらなる文字を符号化するに伴って文字が増え 文 字 コ ード して使用し、コードページ932(CP932)と呼ばれ てしまい、BMP の領域で表現することは難しくな るSHIFT_JISを拡張した文字符号化方式で符 った。そこで、BMP以外の領域に文字を定義し Windowsの内部コードは、バージョンによって 号化している。JIS X 0201(いわゆる半角文字) て符号化する必要がでてきたのである。そのた 異なる。日本語版 Windowsの場合、Windows を1バイトで扱い、それ以外の文字を2バイトで め の 仕 組 み が サ ロ ゲ ートで あ る 。 サ ロ ゲ ートは 9x 系はMS 漢字コードを、Windows NT 系の 扱っている。日本語版 MS-DOSで採用されて以 BMP中に上位サロゲート(D800h 〜 DBFFh) OSはUnicodeをそれぞれ内部コードとして使用 来、現在 Windowsで使用可能な文字コードで と下位サロゲート(DC00h 〜 DFFFh)の2 箇所 している。図3のように、Windows NT 系とWin ある。 のコード領域を用意し、それぞれ 2 バイトの値を dows 9x系はWindows XPで統合され、以降 一方のUnicodeは、国、地域、処理系などで 所定の数式で計算することによってBMPに続く Windowsの内部コードはUnicodeを使用して 別々に定義されていた文字コードを統一し、世 面に収録されている文字を符号化する仕組みで いる。 界中の文字を1つの文字コードで表現することを あ る( 図2)。 上 位 サ ロ ゲ ートと 下 位 サ ロ ゲ ートの Windows NT 系で使用できる文字集合は、 目的とした規 格で、ユニコードコンソーシアム 組を「サロゲートペア」と呼ぶ。 表5のとおり各OSの内部コードで使用したUni (The Unicode Consortium)によって仕様が制 また、Unicodeには複数の文字を組み合わせ codeバージョンに従っており、文字符号化方式 定されている文 字コードである。元々は 16ビット て1つの文字を表現する仕組みがある。これが はUTF-16を使用している。ただし、文字集合 ですべての文字を表現しようとしたが、符号化す 結合文字である。ヨーロッパ言語、アラビア文字 に関してはWindowsで標準搭載されているフォ る文字が多すぎたため、現在では拡張されて など で 用 いられ ているアクセントなど の 発 音を表 ントがUnicodeの各バージョンの文字集合すべ いる。 現するために使われてきた。この複数の文字を てに対応しているわけではないため、Unicode Unicodeの特徴として、「サロゲート文字」と 合成して作成した文字が日本語の濁点、または で定義された文字をすべて使用できるわけでは 「結合文字」という2 点の特徴がある。Unicode 半濁点付きのカタカナやひらがなの表現に使用 ない。 は、「面」と呼ばれる65536個の文字を定義でき で き る 。 例 え ば 、「 ぱ 」と い う 文 字 は「 ぱ 」と い う 2 Windows Server 2003までのOSでは、JIS DB Magazine 2010 January 徹・底・研・究 特集 1 RDBMS の文字コード X 0213で新たに追加された文字に対応してい 型がある。それぞれのデータ型の特徴は表6に charなどの非 Unicode 型はバイト数を表わし、 ないため注1、OS間でUnicodeのバージョンによ 示 すとおりで ある 。 ncharなどのUnicode 型のデータは文字数を表 る文字の違いは明らかにならなかった。しかし、 非 Unicodeデータ型の文字コードは、列の照 わす。例えば、char(5)の列とnchar(5)の列 Windows VistaでJIS X 0213に対応したフォン 合順序注2によって決まる。日本語を扱う場合は に文字列“あいうえお”を挿入する場合について トが用意されたことで、Windows XPからWind 「Japanese」「Japanese_90」や「Japanese_XJI 考える。“あいうえお”は全角 5 文字、データサイ ows Vista へ移行する場合やWindows XPと S_100」など、「Japanese」からはじまるWindows Windows Vistaが共存する環境において文字 照合順序を選択する(画面1)。その際の文字 注1:Windows XPやWindows Server 2003は技術仕様と してUnicode 3.1に準拠している。Unicode 3.1では の違いによる影響がある(一般には「JIS2004対 コ ード は M S 漢 字 コ ードとな る 。 JIS X 0213:2004の一部文字が収録されている。ただ し、追加された文字に対応するフォントが用意されてい 応」と呼ばれている。SQL ServerにおけるJIS SQL Serverでは、Unicodeのデータ型と非 ない。 2004対応については後述する)。 Unicodeのデータ型では長さの単位が異なる。 注2:文字データの並べ替えや比較で使用するルール。 表 6 : SQL Server の文字列データ型 SQL Serverにおける 文字コード データ型 特徴 文字コードの扱い 非 Unicode char 固定長 最大8,000バイト分の文字を格納できる varchar 可変長 SQL Server のデータ型と 最大8,000バイト分の文字を格納できる 文字コードの関係 varchar(max) 可変長 最大2,147,483,647文字(上限2GB)を格納できる SQL Serverでは、文字コードの扱いは非 SQL Server 2005 以降で使用可能 text 型の代替機能 UnicodeとUnicodeで異なる。非 Unicodeのデ text 可変長 ータ型にはchar 型、varchar型、varchar(max) 最大2,147,483,647文字(上限2GB)を格納できる 型、text型があり、Unicodeのデータ型にはnch SQL Server 2005 以降のバージョンでは非推奨(varchar (max)型を使用する) ar 型、nvarchar 型、nvarchar(max)型、ntext Unicode nchar 固定長 最大で4,000文字(8,000バイト)分のデータを格納できる※ nvarchar 可変長 Windows NT 系 Windows 9x 系 最大で4,000文字(8,000バイト)分のデータを格納できる※ nvarchar(max) 可変長 Windows NT 3.1 Windows 95 最大1,073,741,823 文字(2GB)を格納できる Windows NT 4.0 Windows 98 SQL Server 2005 以降で使用可能 ntext 型の代替機能 Windows 2000 Windows ME ntext 可変長 最大1,073,741,823 文字(2GB)を格納できる Windows Server 2003 Windows XP SQL Server 2005 以降のバージョンでは非推奨(nvarchar (max)型を使用する) Windows Server 2008 Windows Vista ※サロゲート文字や結合文字は1文字で4バイト以上の領域が必要であるため、これらの文字を使用 する場合、最大文字数は少なくなる 図 3 : Windows OS の系譜 表 5 : Windows OSとUnicode のバージョン対応状況 Windows OS バージョン Unicode バージョン※ Windows NT 3.1 Unicode 1.1 Windows NT 4.0(SP4) Unicode 2.0 Windows 2000 Unicode 2.1 Windows XP Unicode 3.1 Windows Server 2003 Unicode 3.1 Windows Vista Unicode 3.2 Windows Server 2008 Unicode 5.0 ※ここでは、技術仕様として準拠しているUnicodeのバージョン を表わしている。実際には該当バージョンにおけるUnicode 文 字の全フォントを実装していないため表示できない文字もある 画面1 : 列の照合順序の設定画面 DB Magazine 2010 January MS 漢字コードとUnicode の使いこなしがカギ Windows OSに依存する SQL Server 文字コードの仕組み 2 ズが10バイトのため、nchar(5)への挿入は正 常に処理できるが、char(5)への挿入はエラー と な る( 画面 2)。 SQL Server での Unicode 文字の扱い方 画面2 :データ型による格納可能なデータサイズの違い SQL Serverでは、SQLステートメント内の文 字列にUnicodeの文字を含む場合と含まない場 合とで記述方法が異なる。Unicode 文字として 扱う場合は、文字列の前に「Nプレフィックス」を 付ける必 要がある。 画 面 3 : 例えば「鷗」という文字は、Unicodeでは扱え N プレフィックス有無による実 るがMS漢字コードでは扱うことができない文字 行結果(左: ①の実行結果、 右 : ②の実行結果) である。この文字がSQL Serverでどのように扱 われるか動作を確認した。 ② サロゲート文字や結合文字が SQLステートメント内で文字列をUnicodeとし 含まれる文字列の扱い方を見直す 確認 て扱う場合、Nプレフィックスを付け忘れることの テーブルに以下の 2 パターンの SQL ステートメ ないように十分注意してほしい。 SQL Serverでは、Unicode型データを1 文 ントを実行し、結果を確認する。 字2バイトとして扱う。1文字4バイト以上のサロ ゲート文字や結合文字を使用する場合には、以 SQL Serverにおける ① col1[varchar(10)]、col2[nvarchar(10)] 下のような点に注意する必要がある。 JIS2004対応 にUnicode 型のデータを挿入 (1) サロゲート文字や結合文字1文字は INSERT INTO TestTable SQL ServerにおけるJIS2004 対応として、以 VALUES (N‘森鷗外’,N‘森鷗外’) nchar(1)に格納できない 下の 3 点が挙げられる。 ② col1[varchar(10)]、col2[nvarchar(10)] nchar(1)には2バイト分の文字しか格納でき に非 Unicode 型のデータを挿入 ないため 、切り捨 てエラーが 発 生 する。これらの ① Unicodeに対応した INSERT INTO TestTable 文字を1文字格納する場合は、[文字のバイト VALUES (‘森鷗外’, ‘森鷗外’) データ型に変更する 数]/2バイト分の長さが必要となる(例えば、4バ JIS2004で追加された文字はMS 漢字コード イトのサロゲート文字では長さが2 必要となる)。 結果 では扱うことができないため、既存のchar 型や (2) ワイルドカードではサロゲート文字や 画面 3 各SQLステートメントの実行結果は、 の varchar 型などの非 Unicode 型をnchar 型やn 結合文字を正しく扱えない ようになる。この結果から、以下のことが分かる。 varchar 型に変更する。「SQL Serverのデータ 型と文字コードの関係」の項でも述べたように、 Transact-SQLで提供されているワイルドカー ◦ MS 漢字コードに存在しない文字を非 Unico char 型とnchar 型ではデータ型の長さが異なる ドのうち、任意の1文字を示すワイルドカード d e 型 の 列 に 挿 入 すると、「?」に変 換される ため、テーブル定義の見直しや、それに伴うディ (“_”)や指定した範囲の1文字に一致するワイル ◦ Nプレフィックスを付けた文字列はUnicode スクサイズの見直しが必要となる。また、文字コ ドカード(“[ ]”)、指定した範囲の1文字に一致 型の列に正常に挿入できる ードがJIS2004を含むUnicodeに変わることによ し な い ワ イ ル ド カ ー ド([ ^ ])で は サ ロ ゲ ー ト 文 字 を ◦ MS漢字コードに存在しない文字をNプレフィ り、データの受け渡しを行なうアプリケーションで 指定できない。例えば、サロゲート文字を含む ックスを付けずにUnicode 型の列に挿入すると もJIS2004の文字を含むUnicode 対応が必要と 「叱る」はワイルドカード“_る”で検索できない(“__ 「?」に変 換される なる。 る”や“%る”では検索できる)。この動作は、ワイ ルドカードで想定されている1 文字がnchar(1) DB Magazine 2010 January 徹・底・研・究 特集 1 RDBMS の文字コード に相当するためである。 でサロゲート文字「叱」を含む文字列の文字数 した結果である。「Japanese_XJIS100」では条 なお、ワイルドカードによる文字列比較の際に を表示した結果である。本来は2文字として扱 件に一致するのみが返されるが、「Japanese」 も以前のバージョンのWindows 照合順序「Japa われる文字が 3 文字として扱われていることが分 の場合は条件に合致するのほかに、、 nese」ではサロゲート文字を正しく比較できない かる(サロゲート文字や結合文字により影響を受 も結 果として返される。 ため、注意が必要である。 ける文 字 列 操 作 関 数とその 影 響 は 表7を 参 照 )。 同様に、Transact-SQLで提供されているRE この影響への対応策としては、CLRユーザー PLACE 関数でも、重み値が設定されていない (3) 既存の文字列操作関数でサロゲート文
Recommended publications
  • Database Globalization Support Guide
    Oracle® Database Database Globalization Support Guide 19c E96349-05 May 2021 Oracle Database Database Globalization Support Guide, 19c E96349-05 Copyright © 2007, 2021, Oracle and/or its affiliates. Primary Author: Rajesh Bhatiya Contributors: Dan Chiba, Winson Chu, Claire Ho, Gary Hua, Simon Law, Geoff Lee, Peter Linsley, Qianrong Ma, Keni Matsuda, Meghna Mehta, Valarie Moore, Cathy Shea, Shige Takeda, Linus Tanaka, Makoto Tozawa, Barry Trute, Ying Wu, Peter Wallack, Chao Wang, Huaqing Wang, Sergiusz Wolicki, Simon Wong, Michael Yau, Jianping Yang, Qin Yu, Tim Yu, Weiran Zhang, Yan Zhu This software and related documentation are provided under a license agreement containing restrictions on use and disclosure and are protected by intellectual property laws. Except as expressly permitted in your license agreement or allowed by law, you may not use, copy, reproduce, translate, broadcast, modify, license, transmit, distribute, exhibit, perform, publish, or display any part, in any form, or by any means. Reverse engineering, disassembly, or decompilation of this software, unless required by law for interoperability, is prohibited. The information contained herein is subject to change without notice and is not warranted to be error-free. If you find any errors, please report them to us in writing. If this is software or related documentation that is delivered to the U.S. Government or anyone licensing it on behalf of the U.S. Government, then the following notice is applicable: U.S. GOVERNMENT END USERS: Oracle programs (including any operating system, integrated software, any programs embedded, installed or activated on delivered hardware, and modifications of such programs) and Oracle computer documentation or other Oracle data delivered to or accessed by U.S.
    [Show full text]
  • Specification Method for Cultural Conventions
    Reference number of working document: ISO/IEC JTC1/SC22/WG20 N690 Date: 1999-06-28 Reference number of document: ISO/IEC PDTR 14652 Committee identification: ISO/IEC JTC1/SC22 Secretariat: ANSI Information technology Ð Specification method for cultural conventions Technologies de l’information — Méthode de modélisation des conventions culturelles 1 Document type: International standard Document subtype: if applicable Document stage: (40) Enquiry Document language: E H:\IPS\SAMARIN\DISKETTE\BASICEN.DOT ISO Basic template Version 3.0 1997-02-03 ISO/IEC PDTR 14652:1999(E) © ISO/IEC 2 Contents Page 3 4 1 SCOPE 1 5 2 NORMATIVE REFERENCES 1 6 3 TERMS, DEFINITIONS AND NOTATIONS 2 7 4 FDCC-set 6 8 4.1 FDCC-set definition 6 9 4.2 LC_IDENTIFICATION 10 10 4.3 LC_CTYPE 11 11 4.4 LC_COLLATE 27 12 4.5 LC_MONETARY 42 13 4.6 LC_NUMERIC 46 14 4.7 LC_TIME 47 15 4.8 LC_MESSAGES 53 16 4.9 LC_PAPER 53 17 4.10 LC_NAME 55 18 4.11 LC_ADDRESS 57 19 4.12 LC_TELEPHONE 57 20 5 CHARMAP 58 21 6 REPERTOIREMAP 62 22 7 CONFORMANCE 89 23 Annex A (informative) DIFFERENCES FROM POSIX 90 24 Annex B (informative) RATIONALE 92 25 Annex C (informative) BNF GRAMMAR 106 26 Annex D (informative) INDEX 111 27 BIBLIOGRAPHY 114 ii © ISO/IEC ISO/IEC PDTR 14652:1999(E) 28 Foreword 29 30 ISO (the International Organization for Standardization) and IEC (the International 31 Electrotechnical Commission) form the specialized system for worldwide standardization. 32 National bodies that are members of ISO or IEC participate in the development of 33 International Standards through technical committees established by the respective 34 organization to deal with particular fields of technical activity.
    [Show full text]
  • The Uplatex2ε Sources
    The upLATEX 2" Sources Ken Nakano & Japanese TEX Development Community & TTK Version u04 (last updated: 2021/03/04) Contents a uplvers.dtx 1 1 upLATEX 2" のバージョンの設定 1 1.1 LATEX 2.09 互換モードの抑制 ..................... 2 1.2 起動時に表示するバナー ....................... 2 b uplfonts.dtx 3 2 概要 3 2.1 docstrip プログラムのためのオプション .............. 3 3 コード 4 4 デフォルト設定ファイル 4 4.1 テキストフォント ........................... 4 4.2 プリロードフォント .......................... 5 4.3 組版パラメータ ............................ 6 5 フォント定義ファイル 7 c ukinsoku.dtx 9 6 禁則 9 6.1 半角文字に対する禁則 ......................... 9 6.2 全角文字に対する禁則 ......................... 10 i 7 文字間のスペース 14 7.1 ある英字と前後の漢字の間の制御 . 14 7.2 ある漢字と前後の英字の間の制御 . 17 d ujclasses.dtx 20 8 オプションスイッチ 20 9 オプションの宣言 21 9.1 用紙オプション ............................ 22 9.2 サイズオプション ........................... 22 9.3 横置きオプション ........................... 23 9.4 トンボオプション ........................... 23 9.5 面付けオプション ........................... 23 9.6 組方向オプション ........................... 24 9.7 両面、片面オプション ......................... 24 9.8 二段組オプション ........................... 24 9.9 表題ページオプション ......................... 24 9.10 右左起こしオプション ......................... 24 9.11 数式のオプション ........................... 24 9.12 参考文献のオプション ......................... 25 9.13 日本語ファミリ宣言の抑制、和欧文両対応の数式文字 . 25 9.14 ドラフトオプション .......................... 26 9.15 オプションの実行 ........................... 26 10 フォント 26 11 レイアウト 30 11.1 用紙サイズの決定 ........................... 30 11.2 段落の形 ................................ 31 11.3 ページレイアウト ........................... 31 11.3.1 縦方向のスペース ......................
    [Show full text]
  • CSV Import and Export
    Importing Tabular Data into Protogrid Protogrid supports the import of CSV files into TableViews. In order to make your data compatible, a few preliminary steps as outlined below are necessary before the import. In this document we assume that you work with Microsoft Excel, however any spreadsheet software or even text editor with UTF-8 support is suitable for this task. Preparing Your Spreadsheet 1. The first row of your spreadsheet should contain the field (column) names according to your current language setting in Protogrid. You may leave out non-mandatory fields, however the field names need to match exactly what you have in your spreadsheet. Any order is acceptable, i.e. it does not need to follow what you see in your Protogrid TableView. 2. Make sure that for all the mandatory fields specified by the corresponding Data Proto, you don’t have any empty cells in your spreadsheet column. 3. Make sure that your cells don’t contain any tabulators. They may however contain commas or semicolons. 4. If you have relational columns (with foreign keys) in your spreadsheet, make sure that: a. the column entries correspond to Shortnames (a short textual representation) of existing Cards for the related Proto. Please note that Protogrid computes a default Shortname for any Card, as displayed in the corresponding TableView column. You can change Shortname of a Card by using a ScriptLibrary (please have a look at the default code that is generated when creating a new ScriptLibrary). b. in case of m-to-n relations, separate the column entries using the tilde (‘wave dash’) character (~).
    [Show full text]
  • Chapter 6, Writing Systems and Punctuation
    The Unicode® Standard Version 13.0 – Core Specification To learn about the latest version of the Unicode Standard, see http://www.unicode.org/versions/latest/. Many of the designations used by manufacturers and sellers to distinguish their products are claimed as trademarks. Where those designations appear in this book, and the publisher was aware of a trade- mark claim, the designations have been printed with initial capital letters or in all capitals. Unicode and the Unicode Logo are registered trademarks of Unicode, Inc., in the United States and other countries. The authors and publisher have taken care in the preparation of this specification, but make no expressed or implied warranty of any kind and assume no responsibility for errors or omissions. No liability is assumed for incidental or consequential damages in connection with or arising out of the use of the information or programs contained herein. The Unicode Character Database and other files are provided as-is by Unicode, Inc. No claims are made as to fitness for any particular purpose. No warranties of any kind are expressed or implied. The recipient agrees to determine applicability of information provided. © 2020 Unicode, Inc. All rights reserved. This publication is protected by copyright, and permission must be obtained from the publisher prior to any prohibited reproduction. For information regarding permissions, inquire at http://www.unicode.org/reporting.html. For information about the Unicode terms of use, please see http://www.unicode.org/copyright.html. The Unicode Standard / the Unicode Consortium; edited by the Unicode Consortium. — Version 13.0. Includes index. ISBN 978-1-936213-26-9 (http://www.unicode.org/versions/Unicode13.0.0/) 1.
    [Show full text]
  • IBM Cognos Powerplay Version 11.0: Administration Guide Introduction
    IBM Cognos PowerPlay Version 11.0 Administration Guide IBM © Product Information This document applies to IBM Cognos Analytics version 11.0.0 and may also apply to subsequent releases. Copyright Licensed Materials - Property of IBM © Copyright IBM Corp. 2005, 2018. US Government Users Restricted Rights – Use, duplication or disclosure restricted by GSA ADP Schedule Contract with IBM Corp. IBM, the IBM logo and ibm.com are trademarks or registered trademarks of International Business Machines Corp., registered in many jurisdictions worldwide. Other product and service names might be trademarks of IBM or other companies. A current list of IBM trademarks is available on the Web at “Copyright and trademark information” at www.ibm.com/legal/copytrade.shtml. The following terms are trademarks or registered trademarks of other companies: v Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or trademarks of Adobe Systems Incorporated in the United States, and/or other countries. v Microsoft, Windows, Windows NT, and the Windows logo are trademarks of Microsoft Corporation in the United States, other countries, or both. v Intel, Intel logo, Intel Inside, Intel Inside logo, Intel Centrino, Intel Centrino logo, Celeron, Intel Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries. v Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both. v UNIX is a registered trademark of The Open Group in the United States and other countries. v Java and all Java-based trademarks and logos are trademarks or registered trademarks of Oracle and/or its affiliates.
    [Show full text]
  • Unicode Line Breaking Algorithm Technical Reports
    4/26/2018 UAX #14: Unicode Line Breaking Algorithm Technical Reports Proposed Update Unicode® Standard Annex #14 UNICODE LINE BREAKING ALGORITHM Version Unicode 11.0.0 (draft 1) Editors Andy Heninger ([email protected]) Date 2018-04-10 This Version http://www.unicode.org/reports/tr14/tr14-40.html Previous http://www.unicode.org/reports/tr14/tr14-39.html Version Latest http://www.unicode.org/reports/tr14/ Version Latest http://www.unicode.org/reports/tr14/proposed.html Proposed Update Revision 40 Summary This annex presents the Unicode line breaking algorithm along with detailed descriptions of each of the character classes established by the Unicode line breaking property. The line breaking algorithm produces a set of "break opportunities", or positions that would be suitable for wrapping lines when preparing text for display. Status This is a draft document which may be updated, replaced, or superseded by other documents at any time. Publication does not imply endorsement by the Unicode Consortium. This is not a stable document; it is inappropriate to cite this document as other than a work in progress. A Unicode Standard Annex (UAX) forms an integral part of the Unicode Standard, but is published online as a separate document. The Unicode Standard may require conformance to normative content in a Unicode Standard Annex, if so specified in the Conformance chapter of that version of the Unicode Standard. The version number of a UAX document corresponds to the version of the Unicode Standard of which it forms a part. https://www.unicode.org/reports/tr14/tr14-40.html 1/59 4/26/2018 UAX #14: Unicode Line Breaking Algorithm Please submit corrigenda and other comments with the online reporting form [Feedback].
    [Show full text]
  • Iso/Iec 30112 Wd12 Standard
    INTERNATIONAL ISO/IEC 30112 WD12 STANDARD ISO/IEC 30112 WD12 2018-02-12 Information technology — Specification methods for cultural conventions Technologies de l'information — Méthodes de modélisation des conventions culturelles This page left for ISO/IEC copyright notices. ISO/IEC 30112 WD12 Contents Page CONTENTS iii FOREWORD iv INTRODUCTION v 1 SCOPE 1 2 NORMATIVE REFERENCES 1 3 TERMS, DEFINITIONS AND NOTATIONS 1 4 FDCC-set 7 4.1 FDCC-set description 8 4.2 LC_IDENTIFICATION 13 4.3 LC_CTYPE 15 4.4 LC_COLLATE 48 4.5 LC_MONETARY 62 4.6 LC_NUMERIC 67 4.7 LC_TIME 68 4.8 LC_MESSAGES 77 4.9 LC_XLITERATE 78 4.10 LC_NAME 80 4.11 LC_ADDRESS 82 4.12 LC_TELEPHONE 85 4.13 LC_PAPER 86 4.14 LC_MEASUREMENT 86 4.15 LC_KEYBOARD 87 5 CHARMAP 87 6 REPERTOIREMAP 93 7 FUNCTIONALITY 127 8 MESSAGE FORMAT 127 Annex A (informative) DIFFERENCES FROM POSIX 127 Annex B (informative) RATIONALE 129 Annex C (informative) BNF GRAMMAR 145 Annex D (informative) RELATION TO TAXONOMY 151 Annex E (informative) IMPLEMENTATION IN GLIBC 154 Annex F (informative) INDEX 155 BIBLIOGRAPHY 158 2 © ISO/IEC 2018 – All rights reserved ISO/IEC 30112 WD12 Foreword ISO (the International Organization for Standardization) and IEC (the International Electrotechnical Commission) form the specialized system for worldwide standardization. National bodies that are members of ISO or IEC participate in the development of International Standards through technical committees established by the respective organization to deal with particular fields of technical activity. ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations, governmental and non-governmental, in liaison with ISO and IEC, also take part in the work.
    [Show full text]
  • Developer Camp
    【1E】 Delphi / C++ テクニカルセッション 「Delphiでの文字コードのハンドリングについて」 有限会社 エイブル 富永 英明 1 はじめに まずは文字コードの種類を知る • 日本で使われる有名所の文字コード – Shift_JIS – ISO-2022-JP – EUC-JP – UTF-8 (Unicode) – UTF-16 (Unicode) • 文字コードがどうなっているのか知らない事には始まらない。 • …でも、あんまり詳しくやってると文字コードだけで終わっちゃいますの で、“駆け足で” やります。 3 文字集合 JIS X 0208 JIS X 0201 JIS X 0212 (ANSI 漢字集合) (ANK 半角カナ) (補助漢字) Unicode JIS X 0213 (ANSI 漢字集合) 4 文字エンコーディング JIS X 0208 JIS X 0213 EUC-JP SHIFT_JIS ISO-2022-JP Unicode UTF-8 UTF-16 UTF-32 UTF-7 5 ANSI – Shift_JIS • Shift_JIS – Windows では CP932 – 1 エレメント (文字構成単位) は 1 バイト – 漢字は 2 バイト (2 エレメント で構成される) – 亜種が多い。所謂、”機種依存文字” が多い。 名称 備 考 Shift_JIS JIS X 0208 ベース CP932 JIS X 0208 ベース Shift_JISX0213 JIS X 0213:2000 ベース Shift_JIS-2004 JIS X 0213:2004 ベース 他多数。 – "補助漢字 (JIS X 0212)" は使えない。 – Shift_JISX0213 と Shift_JIS-2004 は第3/4水準漢字が使える。 – 0x5C (パスデリミタ) が 2 バイト文字に含まれる場合がある。 – Delphi 1 ~ Delphi 2007 でのデフォルト文字コード (於日本) 6 ANSI – Shift_JIS • 機種依存文字 – 例えば、Mac OS X。 ANSI Windows Mac 0xFD (未使用) © 0xFE (未使用) ™ 0xFD と 0xFE を Unicode に変換してみると… ANSI Windows Mac (私用領域) 0xFD © U+F8F1 U+00A9 (私用領域) 0xFE ™ U+F8F2 U+2122 7 ANSI – Shift_JIS • パスデリミタの問題 – 2バイト文字が考慮されていないと… C:¥集計表1.txt “表” は 0x95, 0x5C で、2バイト目に 0x5C (パスデリミタ) を含んでいる。 海外製のアプリケーションで問題になる事が多い。 C:¥饅頭怖い.txt 等も同様。 – コンソールアプリケーションの場合には、0x7C (パイプ) にも注意が必要。 C:¥竹の弓.txt 現在では問題になる事はあまりないとは思うが念のため。 8 ANSI – Shift_JIS • パスデリミタの問題 – パスデリミタ ( ¥ = 0x5C) を含む漢字は… ― ソ Ы Ⅸ 噂 浬 欺 圭 構 蚕 十 申 曾 箪 貼 能 表 暴 予 禄 兔 喀 媾 彌 拿 杤 歃 濬 畚 秉 綵 臀 藹 觸 軆 鐔 饅 鷭 偆 砡 – パイプ ( | = 0x7C) を含む漢字は… - ポ л 榎 掛 弓 芸 鋼 旨 楯 酢 掃 竹 倒 培 怖 翻 慾 處 嘶 斈 忿 掟 桍 毫 烟 痞 窩 縹 艚 蛞 諫 轎 閖 驂 黥 埈 蒴 9 ANSI – ISO-2022-JP
    [Show full text]
  • L2/01-252-Amd
    ISO/IEC JTC1/SC2 N ISO/IEC JTC1/SC2/WG2 N Universal Multiple Octet Coded Character Set International Organization for Standardization Organisation internationale de normalisation Международная организация по стандартизации Doc Type: Document for Ballot Title: FPDAM text for Amendment 1 to ISO/IEC 10646-1:2000 Source: Project editor Michel Suignard, and contributing editors Michael Everson and Asmus Freytag Status: Working Group Document Action: For JTC1/SC2 ballot Date: 2001-06-07 Note to reviewers: In the character code tables, both new and existing characters are printed. The new characters are shown in a light yellow background, which, on some printers, may show as light gray background. The existing characters that have been corrected since the last edition are also shown in the same light yellow background. This highlight is solely intended as an aid to the reviewer, and is not formally part of the standard. The fonts in the code charts reflect the best fonts available to the editors as of this date. (This page left intentionally blank) Final Proposed Draft Amendment (FPDAM) ISO/IEC 10646-1:2000/Amd. 1:2001 (E) Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 1: Architecture and Basic Multilingual Plane AMENDMENT 1: Mathematical symbols and other characters Item 1. Mathematical and other Table 85 - Row 2A: Supplemental Mathematical characters Operators Table 86 - Row 2A: Supplemental Mathematical 1. Modifications to existing tables Operators Insert the following additional character glyphs and Table 98 - Row 31: Katakana Phonetic names at the indicated positions in the tables given Extensions below in Item 15, the character names replacing the Table 145 - Row FA: CJK Compatibility existing entries which read “(This position shall not Ideographs be used)”.
    [Show full text]
  • Oracle Database Globalization Support Guide, 10G Release 2 (10.2) B14225-02
    Oracle® Database Globalization Support Guide 10g Release 2 (10.2) B14225-02 December 2005 Oracle Database Globalization Support Guide, 10g Release 2 (10.2) B14225-02 Copyright © 1996, 2005, Oracle. All rights reserved. Primary Author: Cathy Shea Contributing Authors: Paul Lane, Cathy Baird Contributors: Dan Chiba, Winson Chu, Claire Ho, Gary Hua, Simon Law, Geoff Lee, Peter Linsley, Qianrong Ma, Keni Matsuda, Meghna Mehta, Valarie Moore, Shige Takeda, Linus Tanaka, Makoto Tozawa, Barry Trute, Ying Wu, Peter Wallack, Chao Wang, Huaqing Wang, Simon Wong, Michael Yau, Jianping Yang, Qin Yu, Tim Yu, Weiran Zhang, Yan Zhu The Programs (which include both the software and documentation) contain proprietary information; they are provided under a license agreement containing restrictions on use and disclosure and are also protected by copyright, patent, and other intellectual and industrial property laws. Reverse engineering, disassembly, or decompilation of the Programs, except to the extent required to obtain interoperability with other independently created software or as specified by law, is prohibited. The information contained in this document is subject to change without notice. If you find any problems in the documentation, please report them to us in writing. This document is not warranted to be error-free. Except as may be expressly permitted in your license agreement for these Programs, no part of these Programs may be reproduced or transmitted in any form or by any means, electronic or mechanical, for any purpose. If the Programs are delivered to the United States Government or anyone licensing or using the Programs on behalf of the United States Government, the following notice is applicable: U.S.
    [Show full text]
  • 6 Java Overview of Oracle8i Java Support
    Oracle8i National Language Support Guide Release 2 (8.1.6) December 1999 Part No. A76966-01 National Language Support Guide, Release 2 (8.1.6) Part No. A76966-01 Copyright © 1996, 1999, Oracle Corporation. All rights reserved. Primary Author: Paul Lane Contributors: Winson Chu, Jason Durbin, Jessica Fan, Yu Gong, Josef Hasenberger, Claire Ho, Peter Linsley, Tom Portfolio, Den Raphaely, Linus Tanaka, Makoto Tozawa, Gail Yamanaka, Michael Yau, Hiro Yoshioka, Sergiusz Wolicki, Simon Wong Graphic Designer: Valarie Moore The Programs are not intended for use in any nuclear, aviation, mass transit, medical, or other inherently dangerous applications. It shall be the licensee’s responsibility to take all appropriate fail-safe, backup, redundancy and other measures to ensure the safe use of such applications if the Programs are used for such purposes, and Oracle disclaims liability for any damages caused by such use of the Programs. The Programs (which include both the software and documentation) contain proprietary information of Oracle Corporation; they are provided under a license agreement containing restrictions on use and disclosure and are also protected by copyright, patent, and other intellectual and industrial property laws. Reverse engineering, disassembly, or decompilation of the Programs is prohibited. The information contained in this document is subject to change without notice. If you find any problems in the documentation, please report them to us in writing. Oracle Corporation does not warrant that this document is error free. Except as may be expressly permitted in your license agreement for these Programs, no part of these Programs may be reproduced or transmitted in any form or by any means, electronic or mechanical, for any purpose, without the express written permission of Oracle Corporation.
    [Show full text]