第3・第4水準漢字の基礎知識

 

 

(日本工業規格(JIS)が定めている「第1水準漢字」「第2水準漢字」については、とくに難しい事を考えなくともPCやネット上で扱う事が出来ますが、)「第3水準漢字」「第4水準漢字」「第1~4水準実装外漢字」を扱うためには、「文字集合」「エンコード」「フォント」の3つの要素によってPCやネット上の文章が成り立っているという事を認識しておく必要があります

 

● 「文字集合」:扱う事の出来る文字の種類とその文字数を制定したモノ

Adobe Solutions Network Technical Notes - Fonts


↑:「Unicode対応ア プリケーション」や「Unicode UCS 文字集合対応フォント」を別途インストールする事で、扱う事が出来る文字集合をさらに拡張させる事が出来ます

  • 「Unicode 2.1 UCS」(38869 Graphic Characters)
    「Unicode 3.0 UCS」(49168 Graphic Characters)
    「Unicode 3.1 UCS」(94009 Graphic Characters)
    「Unicode 3.2 UCS」(95023 Graphic Characters)
    「Unicode 4.0 UCS」(96243 Graphic Characters)
    「Unicode 4.1 UCS」(97515 Graphic Characters)
    「Unicode 5.0 UCS」(98884 Graphic Characters)
    ・・・など

(「UCS」とは国際符号化文字集合(Universal Multiple-Octet Coded Character Set)の意味)

 

● 「エンコード」:PCやネット上で文章を扱うための電子符号化方法

≫ 扱える文字集合

≫ 扱える文字集合=「Unicode ~3.0 対応アプリケーション」(最大49168文字)
「Unicode 3.1~対応アプリケーション」(9万文字以上)
(インストールされ ているフォントが「Unicode 3.2~ UCS」であれば、その対応文字集合が上限)

≫ 扱える文字集合

≫ 扱える文字集合

・・・など

 

 

● 「フォント」: ディスプレイやプリンタで電子符号化された文章を表示するために必要な「文字字形データ」を収録した、データ集合ファイル

「MS ゴシック」「MS Pゴシック」「MS 明朝」「MS P明朝」
Version .2.20 (Windows 95)

(JIS X 0208:1997+Windows拡張文字)

「MS ゴシック」「MS Pゴシック」「MS UI Gothic」「MS 明朝」「MS P明朝」
Version. 2.30 (Microsoft Word 98~をインストールしたWindows 95や、Windows 98/Me/NT4.0 SP4~/2000/xp/Server 2003)

(JIS X 0208:1997+JIS X 0212:1990+Windows拡張文字)

「MS ゴシック」「MS Pゴシック」「MS UI Gothic」「MS 明朝」「MS P明朝」
Version. 5.00 (Windows Vistaに同梱される他、Windowsxp向けにも提供予定)

(JIS X 0213:2004+JIS X 0212:1990+IBM拡張文字+Apple Computer拡張文字)

「メイリオ」 (Windows Vistaに同梱)

 

「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴ Pro W3」「ヒラギノ角ゴ Pro W6」「ヒラギノ丸ゴシック Pro W4」
Version 6.22
(Mac OS X 10.0~10.0.4)

「Adobe Japan1-4」文字集合(=PostScript実装 15444文字字形、Unicode実装9772文字)を実装

「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴ Pro W3」「ヒラギノ角ゴ Pro W6」「ヒラギノ丸ゴシック Pro W4」
Version 7.00
(Mac OS X 10.1~10.1.2)


「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴ Pro W3」「ヒラギノ角ゴ Pro W6」「ヒラギノ丸ゴシック Pro W4」
Version 7.02
(Mac OS X 10.1.3~10.1.5)


「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴ Pro W3」「ヒラギノ角ゴ Pro W6」「ヒラギノ丸ゴシック Pro W4」
Version 7.10
(Mac OS X 10.2~10.2.2)


「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴ Pro W3」「ヒラギノ角ゴ Pro W6」「ヒラギノ丸ゴシック Pro W4」
Version 7.11
(Mac OS X 10.2.3~)


华文细黑(STHeiti Light)」 「华文黑体(STHeiti Regular)」 「华文宋体(STSong Regular)」 「华文楷体(STKaiti Regular)」 「华文仿宋(STFangsong Regular)
(Mac OS X 10.2~)

(Unicode 3.0 の範囲内での日本語表示に完全対応しています)

 

 

■ 第3水準漢字・第4水準漢字とは?

 

2000年(平成12年)1月、日本工業規格 JIS X 0213:2000『7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合』 が官報告示されました

これは従来の JIS漢字規格(JIS X 0208:1997)『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』(非漢字524文字、第1水準漢字2965文字、第2水準漢字3390 文字の計6879文字)に、第3水準漢字(記号類661文字含む)1908文字、第4水準漢字2436文字という形で4344文字を追加し、計11223文字へと拡張したシロモノです

教科書調査を始めとする他分野にわたる用字調査、一般からの意見を募った公開レビューなどを経て完成させられた規格だけに、今後の活躍 が期待されます

・・・というシロモノで、上記の 「教科書調査を始めとする他分野」「一般からの意見」の中身は以下のようなものとなっています
(下記の全てが採用された訳では無い)

「通産省工業技術院」依託、「日本規格化協会」傘下、「符号化文字集合調査研究委員会」第2分科会(JCS WorkGroup 2) 公開レビュー資料 (1998-12-06) 」

新JIS漢字典拠一覧

資料 異なり (※1) 独自(※2) 諸橋(※3)に無し UCS(※4)に無し
日本電信電話株式会社電話帳(1997.2.14現在・日本電信電話株式会社御提供) 3242 964 786 876
1万分の一地図(1995・国土地理院御提供) 13 3 7 5
2万5千分の一地図(1995・国土地理院御提供) 136 23 38 35
町字ファイル書換え字(国土地理協会御提供) 180 60 88 85
国土地理協会メインフレーム外字 52 0 7 4
神社名・祭神名(神社本廳御提供) 54 1 10 10
新潮文庫(新潮社御提供) 589 41 27 33
青 空文庫外字
(リンク切れ。「青空文庫登録作品に現れた外字」「文学作品に現れたJIS X 0208にない文字」へ分割移動。また「青空文庫 派生プロジェクト あさっての向かい風」「外字注記一覧」では、Unicode(UTF-8)による文字データが提供 されています)
53 0 5 2
雑誌「群像」(講談社御提供) 4 0 0 1
歌舞伎番附(東京大学国文学研究室御提供) 39 1 6 5
酒造講本(日本醸造協会・第5版) 5 1 1 2
文部省学術用語集 6 0 1 1
現行法律・勅令・政令(1998.3.31現在・総務庁御提供) 7 1 1 1
弓道 4 0 0 0
国宝名 9 0 1 1
宋本玉篇部首 153 95 1 100
熟語対応、切韻(鉅宋広韻)韻目、韻鏡三十六字母等 24 4 2 2
日本内経医学会 481 87 11 107
全日本鍼灸学会(1998) 131 6 2 5
日本東洋医学会(1998) 156 4 2 15
国立国会図書館(1998) 1433 252 137 297
日本書籍出版協会書籍総合目録(1998) 286 8 39 33
共同通信社の記事用例(同社御提供) 14 0 0 0
朝日新聞社の記事用例(同社御提供) 409 110 146 126
毎日新聞社の記事用例(同社御提供) 91 0 15 5
共同通信社外字表(K-JIS) 366 0 48 41
大辞林第2版(三省堂御提供) 1218 42 69 96
日本国語大辞典(小学館御提供) 6678 3375 1237 1737
小・中・高の教科書全冊(1997・1998年度)
(リンク切れ)
891 153 149 112
メインフレーム(IBM/JEF/JIPS/KEIS)外字(異なり(※1)) 6066 1977 1570 1343

※1 「異なり」とは、(JIS X 0208:1997に準拠した6879文字に含まれていない)同一の漢字が複数回現れても一つと数えた時の漢字の数

※2 「独自」とは、(JIS X 0208:1997に準拠した6879文字や上記での他の出典元に含まれていない)そのソースだけによって確認される漢字

※3 「諸橋大漢和辞典」とは諸橋大漢和辞典の漢字番号に準拠した50305文字の文字集合

※4 「UCS」とは、Unicode Verision 2.1 UCSに実装されている38887文字の文字集合

なお、

  • JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』については、「97JIS文字集合」「旧JIS漢字」
  • JIS X 0213:2000『7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合』については、「JIS2000文字集合」「2000JIS文字集合」 「JIS X 0213:2000漢字集合」「新JIS漢字」

などと一部の人間が呼ぶ事もある ようですが、

このREADMEでは、

  • 前者については、「非漢字+第1・第2水準漢字文字集合」
  • 後者については、「非漢字+第1~第4水準漢字文字集合」

というような表記に統一します

 

 

■ 第3水準漢字・第4水準漢字を扱う手法について

 

PCやネット上において、コン シューマーレベルで「第1・第2水準実装外漢字」を扱う手立てとして、

  • 「Unicodeエンコード」を採用する

  • JIS2000(JIS X 0213:2000 附属書1~3)準拠 エンコードの「Shift_JIS(Shft_JISX0213)」「JIS(iso-2022-jp-3)」「EUC-JP(EUC-JPX0213)」を採用する

  • 「HTML2.0(RFC1866)」で定義されている「文字参照(references)」規定を導入するcharacter

・・・という3つ2つの方法がありま す

 

 

 「Unicodeエンコード」とは・・・



従来の言語切り替え型エンコード方式(日本語では「Shift_JIS」「EUC(euc-jp)」「JIS(iso-2022-jp)」)で記述した文章では、自国言語以外の言語圏(英語圏を除く)では文字化けしてしまうという問題があり、ネットによる情報の国際化・共有化を妨げる要因の一つとなっていまし た

例えば、検索エンジンの老舗的存在である、

・・・というように、従来から利用されている言語切り替え型エンコード方式を採用しているため、これらの検索エンジンでは日本語と英語のホームページしか検索出来ません

 

この問題を克服するため、世界中の文字を一つのエンコード上で扱う事が出来るように新しく制定されたエンコード方式が「Unicode」です

後発の検索エンジンであるGoogle 日本で は、「Unicode(UTF-8)」エンコードを採用したため、
  • 世界中の言語のホームページを一括して検索する事が可能
  • 一つの検索結果のページ上に、世界中の情報を混在させて多漢字・多ヶ国語文章として表示させる事が可能

・・・という特徴があり、老舗の検索エンジンの存在を脅かすほどの高い支持を得ています()

NHKが「検索エンジンを使用しているPCの画面」を放送する場合には、以前は必ずと言っていいほどYAHOO! JAPANでしたが、2002年度初頭くらいからGoogle 日本に変更されていま す・・・

 

「Unicodeエンコード」で あれば、日本で一般的ではない漢字であっても、中国(大陸)・香港・台湾・韓国/朝鮮などで用いられている漢字もそのまま利用出来るため、いま現在PCで浸透している「Shift_JIS」「EUC(euc-jp)」「JIS(iso-2022-jp)」では扱えなかった第1・第2水準実装外の漢字を扱う 事が出来ます()

「フォント」の文字集合に該当文字が実装されていれば正しく表示出来ますが、含まれていない場合にはPC内部では正しく処理出来ていてもディスプレイ上では文字抜けします

しかし、 「Unicode UCS」対応フォントが導入されていない古いPC環境を使用している場合でも、ネット上で無償配布されている「Unicode UCS対応フォント」をダウンロードするなどをする事で、 「Unicode」対応アプリケーション上で「Unicodeエンコードによる多漢字・多ヶ国語文章」を表示する事が出来るようになります

 

また、世界的な流れとして従来の 言語切り替え型エンコード方式から「Unicode」への移行が始っています(※1)(※2)ので、「第3水準漢字」「第4水準漢字」などを扱う手法としても、一般的には「Unicode」として扱うのが基本です

※1 欧州統一通貨の単位である「€(EURO)」は、日本工業規格(JIS)では「第3水準漢字」として定義されています

しかし、国際的な通貨の表記 を必要とするグローバルなデータを、日本国内でしか通用しない「言語切り替え型エンコード方式」の拡張方式(=「JIS2000(JIS X 0213:2000 附属書1~3)準拠エンコード」)や、「言語切り替え型エンコード方式」の外字として扱っても意味を持たないため、「€(EURO)」を扱うデータは全て 「Unicode」である必要があります

 

※2 2002年(平成14年)8月から運用開始された、総務省の「住基ネット(住民基本台帳ネットワーク)」では、「Unicode」をベースとしたエンコー ドが採用されています

さらに、「住基ネット」を ベースとして官公庁をネットワーク化するという「電子政府」構想でも、「住基ネット」でのエンコード方式がそのまま使用される事になりますので、官公庁と やりとりをする必要があるデータなどについても「Unicode」への移行が求められる事になります

 

 

 「JIS2000 (JIS X 0213:2000 附属書1~3)準拠エンコード」とは・・・


1990年に制定した「補助漢字(JIS X 0212:1990)」準拠エンコード(「iso-2022-jp-2」「iso-2022-jp-1」「euc-jp-3」)は、結局のところUnix でしか利用出来無いシロモノで、一般的なパソコン(=「Windows」「Macintosh」)では使えなかったので普及しませんでした

そこで、今度は一般的なパソコン(=「Windows」「Macintosh」)でも使えるように、「Windows」「Macintosh」での標準と して文章作成時のエンコードとして用いられているShift_JISでの『あまり使われていない領域』()に入っている「メーカー拡張文字」と「外字」 を使えないようにして、そこ(=「第3実装領域」と「第4実装領域」)へ新しく第1・第2水準実装外の文字を入れてしまって「JIS X 0208:1997」を拡張しましょう

・・・というのが規格制定時の発想で、そこから「第3・第4水準漢字文字集合」が誕生しました

Shift_JISでは、「メーカー拡張文字(=機種依存文字)領域」と「外字領域」と呼ばれている、『あまり使われていない領域』が存在しています

※ Shiift_JISエンコードでは、94×94区画の実装面が2面規定されており、

  • 非漢字+第一水準漢字が実装されている「第1実装領域」
  • 第2水準漢字が実装されている「第2実装領域」
  • 将来の拡張用として残されていた「第3実装領域」
    (メーカー拡張文字が実装されてし まった)

の3つの領域が『第1面』、

ユーザーが独自に利用出来る領域として規定されていた「第4実装領域」(=外字領域)が 『第2面』、として規定されています

 

しかし、2000年に実際に仕上がったJIS2000 (JIS X 0213:2000 附属書1~3)準拠エンコード規格というのは、

「JIS X 0213:2000 附属書1:Shift_JISX0213」とは、日本における言語切り替え方エンコードであるShift_JISエンコードの「機種依存文字領域」や「外 字領域」などに「第3・第4水準漢字」を当てはめていくという旧式な方式で、PC出荷台数の9割以上を占めるWindowsでの機種依存文字との互換性を 排除するという、市場経済の原則を無視したものです。
(附属書1の他に、「附属書2:iso-2022-jp-3」「附属書3:EUC-JPX0213」という方式もあります)

しかし Windows の場合には、 これらの「JIS X 0213:2000 附属書1~3」準拠エンコードで「第3・第4水準漢字」を完全に扱えるのは「Windows 95/98/Me上でのUnicode非対応アプリケーション」のみです。

Windows 95/98/Me上でのUnicodeアプリケーション」や「Windows NT4.0/2000/
xp/Server 2003」の場合には「第4水準漢字」はほとんどのアプリケーション上で は完全に扱えるものの、「第3水準漢字」については大部分が「・」に文字化けします。

「JIS X 0213:2000 附属書1~3」準拠エンコードはこのような致命的欠陥があるためJISの正式な規格として制定する事が出来ず、JISの「参考情報」という位置付けとなっ ています。

ただ、「JIS X 0213:2000」が制定された当時にはUnicode3.1や3.2が制定されていなかったため、今すぐにでも「第3・第4水準漢字」を使いたくて仕 方が無い分野では「JIS X 0213:2000 附属書1~3」が用いられるケースが発生し、「JIS X 0213:2000 附属書1~3」対応フォントがユーザーの手によって自作されました。

なお、「JIS X 0213:2000 附属書1~3」エンコード対応フォントでは、Unicodeエンコード上での「第3・第4水準漢字」は表示出来ません。
また、「Habian2000u」(内部Unicode書体)のような『Unicodeエンコード対応「JIS X 0213:2000 文字集合」サブセット対応フォント』では、「JIS X0213:2000 附属書1~3」エンコードによる「第3・第4水準漢字」は表示出来ません。

同一の「JIS X 0213:2000 の文字字形」であっても、「JIS X 0213:2000 附属書1~3」エンコードと「Unicodeエンコード」とでは、その字形に割り当てられているコードポイントが異なっています。

・・・というように、致命的な欠陥を備えているために日本工業規格の正式な規格として制定する事が出来ませんでした()

「JIS X 0213:2000」に準拠した「Shift_JIS」「iso-2022-jp」「euc-jp」エンコードは、JIS X 0213:2000『7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合』-「附属書1:Shift_JISX0213」「附属書2:iso- 2022-jp-3」「附属書3:EUC-JPX0213」として、「JIS X 0213:2000」に附属する『参考情報』としての扱いとなっていますので、これらはJISにおける「規格」ではありません

また、PC出荷台数の9割以上を占めるWindows との互換性を無視したシロモノに仕上がったため、結局は「補助漢字(JIS X 0212:1990)」準拠エンコード(「iso-2022-jp-2」「iso-2022-jp-1」「euc-jp-3」)の二の舞となり、「JIS X 0213:2000 附属書1~3」に準拠したエンコードは、普及する事無く役目を終えました

なお、「JIS X 0213:2000 附属書1~3」に準拠したエンコードは通称「JIS2000」と呼ばれる事が多かったようですが、このREADMEでは「JIS2000(JIS X 0213:2000 附属書1~3)準拠エンコード」という表記に統一します

 

 

「文字参照 (character references)」とは・・・

 

「HTML2.0(RFC1866)」で定義されてい るHTML文法の一つで、「文字参照(character references)」の「&○○○○;」記述にて、フォントのコードポイントをダイレクトに文字指定するというモノです

この「文字参照」の規定は、「Unicode」エン コードが扱えないアプリケーションを使っている場合であっても、ごくごく一般的な「Shift_JIS」「EUC-JP」「JIS」エンコード(=非漢字 +第1・第2水準漢字+αしか扱えない)HTML文章上に、「第3・第4水準漢字」「第1~第4水準実装外漢字」などを組み込んだホームページやリッチテキスト(HTML)形式メールを作成出来る事を目的として定義されました

ごくごく一般的な「Shift_JIS」エンコード(=非漢字+第1・第2水準漢字)のホームページを既に作成されている方にとっては、ほんの少し手を加えるだけで「第1・第2水準実装外漢字」を表示させる事が出来るようになり、なおかつ「文字参照」非対応のブラウザソフトやメールソフト上でも「非漢字+第1・第2水準漢字」の部分は文字化けする事無く表示可能なため、大変に便利な存在でしょう()

「フォント」の文字集合に該当文字が実装されていれば正しく表示出来ますが、含まれていない場合にはPC内部では正しく処理出来ていてもディスプレイ上では文字抜けします

しかし、 「Unicode UCS」対応フォントが導入されていない古いPC環境を使用している場合でも、ネット上で無償配布されている「Unicode UCS対応フォント」をダウンロードするなどをする事で、 「文字参照」対応のブラウザソフトやメールソフト上で「文字参照による多漢字・多ヶ国語文章」を表示する事が出来るようになります

 

 

 

■ PCにおける多漢字・多言語ソリューションの流れ

 

1990年 非漢字+第1水準漢字+第2水準漢字の6879文字しか扱えない電子符号化文章“JIS X 0208:1983”の状況を改善すべく、日本工業規格(JIS)では非漢字+第1・第2水準漢字文字集合実装外である新たな文字集合「補助漢字(JIS X 0212:1990文字集合)」(非漢字254文字+漢字5801文字)と、「補助漢字(JIS X 0212:1990)」準拠エンコード(「iso-2022-jp-2」「iso-2022-jp-1」「euc-jp-3」)を制定

≫ しかし、「補助漢字(JIS X 0212:1990)」文字集合はごくごく普通のPCにおけるディファクトスタンダードである「Shift_JIS」では扱えなかったために、しばらくの あいだは「非漢字+第1・第2水準漢字文字集合の6879文字」以外の文字が普及する事はありませんでした

1993年 The Unicode Consortium と ISO(国際標準化機構)/IEC(国際電気標準会議) 10646 は、全世界の主要言語のエンコードを統合した一つのなエンコード方式「Unicode 1.1」(実装領域「第00面」のみ:最大収録文字数65536文字) と、全世界の主要な文字を含んだ単一の文字集合「UCS(Universal Multiple-Octet Coded Character Set:国際符号化文字集合)」(34150 Graphic Characters)を制定しました

「Unicode」の漢字文化圏文字集合部分は中国・台湾・韓国・日本で統合(似た文字は一つの文字として見倣して統合実装する) されていて「CJK統合漢字」()と呼ばれます

狭義の「CJK統合漢字」:China(中国のGB規格:GB2313と台湾のTCA規格:Big5)Japan(日本工業規格:JIS X 0208:1990+JIS X 0212:1990)Korea(韓国のKS規格:ks_c_5601-1987)の文字コード規格を統合した、Unicode区画: 0X4E00~0X9FFFの20902文字(非漢字698文字含む)

Unicode ~2.1 UCS における広義の「CJK統合漢字」では、

・・・の漢字と、

・・・の記号類非漢字が含まれますが、「Hiragana」「Katakana」などの非漢字は「CJK統合漢字」には含まれません

実装領域「第00面」の事を、「BMP(Basic Multilingual Plane)」 「基本多言語面」とも呼びます

1995年 日本工業規格(JIS)では、「Unicode 1.1」「Unicode 1.1 UCS」を日本標準として取り入れ「JIS X 0221:1995」として制定

≫ つまり、

  • 「Unicode 1.1」エンコード=「JIS X 0221:1995」エンコード
  • 「Unicode 1.1 UCS」=「JIS X 0221:1995」文字集合

・・・という事

1996年 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 2.0」(実装領域「第00面」のみ」) を制定する()と同時に、文字集合「UCS」を改定して38867 Graphic Charactersに拡張しました

韓国の一方的な要求によって、韓国語領域が従来の「Unicode 1.1」とは互換性の全く無いベツモノと化し、韓国が世界中から非難を受ける結果となりました

1990年代後半 日本工業規格(JIS)は、いつまでたっても「非漢字+第1水準漢字+第2水準 漢字の6879文字」以外の文字が『ごくごく普通のPC上で、ごくごく普通のヒト』には扱えるようにならないことに(ご う)を煮やし、コンシューマーベースで普及している「Shift_JIS」対応アプリケーション上でそのまま扱える事を目標()とした、JIS X 0208の拡張方式である「JIS X 0213」の文字集合とエンコード方式の制定に着手

結局、目標倒れに終わりました

1998年 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 2.1」(実装領域「第00面」のみ」) を制定ると同時に、文字集合「UCS」を改定して38869 Graphic Charactersに拡張しました
1998年 Microsoft は、「Unicode 2.1」準拠のワープロソフト「Word 98」をリリース

添付されている 「MS ゴシック」「MS Pゴシック」「MS UI Gothic」「MS 明朝」「MS P明朝」フォントVersion 2.30が、「Unicode 2.1」準拠で「補助漢字(JIS X 0212:1990)」文字集合に対応

これによって、コンシューマーベースで「非漢字+第1水準漢字+第2水準漢字の6879文字」+「機種依存文字」以外の文字を、Unicode文章として始めて利用出来るようになりました

1998年 Microsoft は Windows 98/NT4.0 SP4 にて「MS ゴシック」「MS Pゴシック」「MS UI Gothic」「MS 明朝」「MS P明朝」Version 2.30を、「Unicode 2.1」準拠で「補助漢字(JIS X 0212)」文字集合に対応させてリリース
1999年9月 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 3.0」(実装領域「第00面」のみ) を制定と同時に、文字集合「UCS」を改定して49168 Graphic Charactersに拡張しました

「Unicode 2.0」制定時、韓国が「Unicode 1.1」実装領域から勝手に別の場所へと変更した結果、旧「Unicode 1.1」韓国語実装領域が空き領域となったため、ここやその他の空白域を「CJK Unified Ideographs Extension A」(U+3400~U+4DBF、6591文字)などとして再定義し直し、CJK統合漢字は20204文字(非漢字含まず)から27484文字へ増量されました

「CJK Unified Ideographs Extension A」では、「第3・第4水準漢 字集合」の中から164の漢字が新規実装されています

それから、漢文表示用記号も制定されました

また、漢字部首の統合処理が見直され「Kangxi Radicals」 が制定されましたが、従来の「CJK Compatibility Ideographs Supplement」(漢字部首-CJK統合)と「Kangxi Radicals」 (漢字部首-CJK非統合)とが併用されるという苦し紛れの処理が施されました()

「Kangxi Radicals」の中には「CJK Compatibility Ideographs Supplement」の部首がすべて含まれており、コードポイントが重複して与えられています

2000年1月 中国(中華人民共和国)では、PCのOSやアプリケーション、PDAや携帯電話などの、全ての情報通信機器への「GB18030-2000」エンコード方式(※1)の採用を義務付けました(※2)

※1 従来の「GB2312」と上位互換をもった、最大1565668文字の文字集合を実装する事が可能な、中国の新しい国家標準エンコード方式

※2 2001年9月からは、「GB18030-2000」を導入出来無い情報通信機器の販売が禁止となり、Windows 95/98/Me や Mac OS ~9.x などの販売が停止されました

2000年1月 JIS X 0213:2000 告示
  • 「非漢字+第3・第4水準漢字文字集合」については、日本工業規格(JIS)における正式な規格として制定
  • 「JIS2000(JIS X 0213:2000 附属書1~3)準拠エンコード」については、日本工業規格(JIS)の参考情報の扱いとして制定

なお、「第3・第4水準漢字文字集合」は、10年前に制定された「補助漢字(JIS X 0212:1990文字集合)」と大部分が重複しており、「補助漢字(JIS X 0212:1990文字集合)」の中に含まれていない「非漢字+第3・第4水準漢字」は約400文字だけです

2001年3月 Apple Computer は、「Mac OS X」から15444文字の文字集合を備えたOpenType Font()「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴ Pro W3」「ヒラギノ角ゴ Pro W6」「ヒラギノ丸ゴシック Pro W4」version 7.0 (「大日本スクリーン製造株式会社」製) を導入し、「Unicode 2.1/3.0対応アプリケーション上で「Adobe Japan1-4文字集合」のUnicode実装9772文字や「Adobe InDesign 1.0/2.0/CS」「Adobe Illustlator CS」「Canon EDICOLOR 7.0」などのPostScriptカーネルアプリケーション上で「Adobe Japan1-4文字集合」を扱う形態を取っています

※1 OpenType Font は、AdobeとMicrosoft が共同開発したフォント規格で、「Windows 2000/xp/Server 2003」と「Mac OS X」にて同一のフォントファイルを双方で相互に利用出来ます(※23)
(ライセンス的に相互利用を許諾しているかどうかは別として・・・)

Adobe - OpenType ユーザガイド

Adobe - OpenType フォント「よく尋ねられる質問」

大日本スクリーン製造株式会社 - ヒラギノOpenTypeに関するよくあるご質問と回答集(FAQ)

※3 「Adobe Type Maneger light」をインストールすると、Windows 95/98/Me/NT4.0 や Mac OS ~9.x でもOpenType Font をいちおう扱う事が出来るようになりますが、「Windows 2000/xp/Server 2003」や「Mac OS X」と同等に扱える訳ではありません

2001年3月 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 3.1」(実装領域「第00面」~「第16面」:最大収録文字数1114112文字)を制定と同時に、文字集合「UCS」を改定して94009 Graphic Charactersに拡張しました

「Unicode 3.x」による特徴として、実装領域「第01面」~「第16面」()が新しく制定され、実装領域「第02面」の中の「U+20000~U+2A6D6」(計42711区画)に設けられた「CJK Unified Ideographs Extension B」へは42711文字のCJK漢字が登録されました

実装領域「第01面」~「第16面」の事を、「サブサロゲート」もしくは「サロゲートペア」、あるいは単に「サロゲート」などと呼びますが、このREADMEでは『実装領域「第01面」~「第16面」』という表記に統一します

「CJK Unified Ideographs Extension B」では、「第3・第4水準漢字集合」の中から302の漢字が新規実装されています

また、「CJK Compatibility Ideographs」に補足される形で、実装領域「第00面」へ「CJK Compatibility Ideographs Supplement」が付け加えられました



これによって、CJK統合漢字(非漢字含まず)が「Unicode 3.0」までの27484文字と合わせて70195文字に増量され、日本採用枠部分では「J3」(JIS X 0213:2000, level 3=第3水準漢字文字集合のうちの純粋に漢字のみ)と「J4」(JIS X 0213:2000, level 4=第4水準漢字文字集合)が追加収録されました

2001年4月 日本工業規格(JIS)では、「Unicode 3.x」準拠の実装領域「第00面」~「第16面」の符号化体系と、「Unicode 3.0」準拠の実装領域「第00面」文字集合(UCS)を、日本標準として取り入れ、「JIS X 0221-1:2001」として35040文字の文字集合と符号化を制定

≫ つまり、

  • 「Unicode 3.1~」エンコード=「JIS X 0221-1:2001」エンコード
  • 「Unicode 3.0 UCS」≒「JIS X 0221-1:2001」文字集合

・・・という事

なお、「JIS X 0221」系列は廃止され、「JIS X 0221-1」に改められました

2001年6月 Microsoft は、

にて、「Unicode 3.1」に対応させました(※2)

※1 「簡」の中国での簡字体漢字(第1~第4水準実装外漢字)(Unicode 2.1 実装文字)

※2 アプリケーションとして、実装領域「第00面」~「第16面」に対応し、フォントも「Unicode 3.1 UCS」対応の「Simsun(Founder Extended)」が附属

また、日本語版「Officexp」 でも、アプリケーションとして実装領域「第00面」~「第16面」に対応しましたが、肝心の「Unicode 3.1 UCS」文字集合対応フォントは附属していません

しかし、「Microsoft Global IME for Officexp (Simplified Chinese)- with Language Pack」を ダウンロードしてインストールすれば、「Simsun(Founder Extended)」が組み込まれるようです

2001年9月 Apple Computer (と、フォントベンダーである「大日本スクリーン製造株式会社」)は、「Mac OS X 10.1」で「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴ Pro W3」「ヒラギノ角ゴ Pro W6」「ヒラギノ丸ゴシック Pro W4」version 7.0を導入、「AGPS(Apple Computer Publishing Glyph Set)(仮)()文字集合としました

「AGPS」では、「JIS X 0212:1990」(補助漢字文字集合:非漢字254文字+漢字5801文字)のうちの約1/3は欠落しており、他のOSとの多漢字文章を確実にやり取りするには、

  • Mac OS X Language Support Updates: Software Downloadをインストールして「Unicode 3.2 UCS」対応環境にする
  • 「Unicode UCS対応フォント」をダウンロードして「Unicode 2.1 UCS」対応環境にする
  • 「Mac OS X 10.2」にアップデートする
    (「Mac OS X 10.2」に標準で入っている簡体中文フォントの 「华文细黑(STHeiti Light)」 「华文黑体(STHeiti Regular)」 「华文宋体(STSong Regular)」 「华文楷体(STKaiti Regular)」 「华文仿宋(STFangsong Regular)」 は、Unicode 3.0 の範囲内での日本語表示に完全対応しています)

・・・などの必要があります

そして、Mac OS X 10.1データシートでは、

こ とえり3  

「JIS X 0213:2000」の
フルサポート
  • ヒラギノが新しくサポートした「JIS X 0213:2000」をフルにサポートしました。
    Unicodeに対応したアプリケーションに対して、通常のかな漢字変換および文字パレットから、「JIS X 0213:2000」の文字を入力・編集する事ができます。
    また、「JIS X 0213:2000」の文字が必要な地名、人名等をあらかじめ辞書に登録してあります。

文字パレットの拡張
  • 「部首引き漢字表」は「JIS X 0213:2000」に対応すると共に、厳密には正しい部首でなくても引けるように強化しました。
    画数表示も行いますので、今まで以上に検索が簡単になります。
    「漢字以外の文字表」も、分類を見直すと共に「JIS X 0213:2000」への対応を強化しました。
    その他、「新JIS面区点表」や「ユニコード(※1)表」にも拡張が計られています。
   
ヒラギノフォント  

「JIS X 0213:2000」 の
サポート
  • JIS(日本工業規格)の新しい漢字集合規格「JIS X 0213:2000」をフルにサポートしており、Unicode(※1)に対応したアプリケーション等から使用することができます。
    業界標準規格をベースとしていますので、「JIS X 0213:2000」を採用するシステム間であれば、インターネットを介した情報交換も可能です。

・・・と表記されています

※1 社団法人 日本印刷技術協会(JAGAT)のページの、Apple Computer担当者の話で「Unicode 3.2」に先行対応との事
(Apple Computer は The Unicode Consortium のメンバーであるので、規格制定前に対応させる事も出来て当然・・・)

なお、『「JIS X 0213:2000」のフルサポート』とは、

  • Unicode の実装領域「第00面」~「第16面」対応アプリケーション上で「非漢字+第1~第4水準漢字文字集合」をフルにサポート
  • 「Adobe InDesign 2.0/CS」「Adobe Illustlator CS」「Canon EDICOLOR 7.0」などの 「AGPS」対応PostScriptカーネルアプリケーション上で、「非漢字+第1~第4水準漢字文字集合」をフルにサポート

・・・という点で「JIS X 0213:2000」でのJIS規格として制定された文字集合としてフルにサポートされていてます

2001年11月 Microsoft は、「Windowsxp」 にて、「OS」や「標準添付アプリケーション」の多くは実装領域「第00面」~「第16面」に対応しましたが、「Unicode 3.x UCS」対応フォントは附属していません
2002年1月 Microsoft は、「Office v.X」(for Mac OS X 10.1~)にて、「Unicode 3.2」に対応させました()

「Unicode 3.2 UCS」文字集合対応フォントは附属していません

Microsoft は The Unicode Consortium のメンバーであるので、規格制定前に対応させる事も出来て当然・・・

2002年3月 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 3.2」を制定し、実装領域「第00面」や、「第02面」の中の「CJK Unified Ideographs Extension B」は8文字追加され42,719文字(U+20000~U+2A6DF)になるなど、「Unicode 3.2 UCS」は1014文字(※1)が追加され95023 Graphic Charactersとなりましたました

※1 フィリピン採用枠として「Tagalog」「Hanunoo」「Buhid」「Tagbanwa」が取り入れられた他、既存領域でも若干の追加がおこなわれ、日本採用枠部分では、前回収録が見送られた「第3水準漢字文字集合のうちの非漢字部分」(※2)が追加され、「非漢字+第1~第4水準漢字文字集合」にほぼ完全対応しました

※2 Mathematical Operators」(各種専門 記号類)「Dental Symbols」(JIS X 0213:2000「けい線素片」)のほか、日本語版OS上でしか存在しなかった半角カタカナや全角英数、全角欧文記号といった概念などの「East Asian Width」(East Asian Legacy character sets) も追加されました

2002年6月 Apple Computerは、「Mac OS X 10.1.5~」にて、 Mac OS X Language Support Updates: Software Download をインストールする事によって「Unicode 3.2 UCS」文字集合へ対応出来るようにしています
2002年8月 総務省の「住基ネット(住民 基本台帳ネットワーク)」が運用開始され、「Unicode」をベースとしたエンコードが採用されました

正確には、「非漢字+第1~第4水準漢字文字集合」や「各自治体のShift_JIS外字セットの文字字形の集合体」などのうち、

  • 「Unicode」の実装領域「第00面」に割り当てられている文字については「Unicode」互換

  • 「Unicode 3.1~」の実装領域「第01面」~「第16面」に割り当てられている文字については「Unicode」非互換
    (実装領域「第00面」の非漢字領域へ、総務省独自の割り当て)

・・・というように、「Unicode 3.0」とは一部に非互換性を持つエンコードのようです

2002年8月 Apple Computerは、「Mac OS X 10.2」にて、 新「ことえり3」での「ことえりパレット」はGlyph Access Protocolをサポートし、実装領域「第00面」+「第01面」~「第16面」対応アプリケーション上で、Unicode実装の文字だけでなく CID実装の文字字形すべてを扱う事が出来るようになりました

「Mac OS X 10.1」での、 旧「ことえり3」の「ことえり パレット」では、「AGPS(Apple Computer Publishing Glyph Set)(仮)」 の中から、「非漢字+第1~第4水準漢字文字集合」の11223文字 しかサポートしていませんでした

また、Adobe と Apple Computer は、「AGPS」を拡張し、「国語審議会「表外漢字字体表」新規制定文字+その他」を追加し「Adobe Japan1-5」()文字集合を定義し、「Mac OS X 10.2」付属の「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴ Pro W3」「ヒラギノ角ゴ Pro W6」「ヒラギノ丸ゴシック Pro W4」version 7.1にて実装しました

Adobe Solutions Network Technical Notes - Fonts

それから、簡体中文フォント「华文细黑(STHeiti Light)」 「华文黑体(STHeiti Regular)」 「华文宋体(STSong Regular)」 「华文楷体(STKaiti Regular)」 「华文仿宋(STFangsong Regular)」 は「Adobe GB1-4」をサポートしており、「Unicode 3.0 UCS」文字集合の漢字部分がフルに実装されています(Hangul領域は実装されていません)

2002年9月 大日本スクリーン製造株式会社は、ヒラギノOpenTypeフォント45書体を9月25日に発売しました

これで「Windows Vista」以外でも、 「Mac OS X 10.2」で導入されているヒラギノOpenTypeフォント Proと同じ「Adobe Japan1-5」実装したフォント()を利用出来るようになり ます

StdフォントはPostScript実装9354文字字形、Unicode実装8175文字が、Proフォントversion7.1では PostScript実装20298文字字形、Unicode実装約13600文字が実装されています

2003年4月 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 4.0」を制定し、1226文字が新規実装されて「Unicode 4.0 UCS」は96243 Graphic Charactersとなりました
2003年10月 Apple Computerは、「Mac OS X 10.3」にて、「ことえり4」で新設された「アイヌ語入力モード」において、第3水準漢字のアイヌ語 表記用小文字カタカナ「U+31F0~U+31FF」やアイヌ語表記用半濁音記号「゙U+3099」付きカタカナなども含むアイヌ語カタカナ表記のローマ字入力をサポートしました
2003年11月 JUSTSYSTEMS. は、「Adobe Japan1-5」文字集合のUnicode実装約13600文字に対応し、第3・第4水準漢字辞書も標準搭載した「ATOK 16 for Mac OS X 10.1~」を11月21日に発売しました
2005年2月 JUSTSYSTEMS.は、Unicodeによる第3・第4水準漢字辞書をユーザー登録特典提供した「ATOK 2005 for Windows」と、Unicodeによる「非漢字+第1~第4水準漢字」文字集合を実装したフォントをユーザー登録特典提供した「一太郎 2005」を発売しました
2005年3月 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 4.1」を制定し、1272文字が新規実装されて「Unicode 4.1 UCS」は97515 Graphic Charactersとなりました
2006年7月 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 5.0」を制定し、1369文字が新規実装されて「Unicode 5.0 UCS」は98884 Graphic Charactersとなりました
2006年11月
(企業向けリリース)

2007年1月
(一般向けリリース)
Microsoft は、Unicode 3.2対応フォントとなる、

・・・をOS標準フォントとして採用したWindows Vista」をリリースしました

 

 

 

 

→ return to back

→ return to toppage