私案の補足

 ※ すでに公開した私案について、補足をいくらか加える。

 目次
      第1部  (収録文字数)
      第2部  (字形の変更/人名字/専門外字/ローカルな各国語処理)
      第3部  賞味期限切れにつき、削除。 (他のページに更新・吸収された。)
      第4部  (漢字と記号の選定。 iモードの問題 など。)
      第5部  (タグ字の記述法)



  【 変更履歴 】

1999.5.17.
      第1部 を公開。
1999.8.12.
      第1部 を書き直した。(内容は同じ。)
      第2部 を公開。
      第3部 を公開。
2000.2.24.
      第1部 の最後に若干、追記した。
      第3部 を削除。(内容が賞味期限切れ。)
      第4部 を公開。
      第5部 を公開。
2000.2.25.
      第4部 の最後のあたりに、追記した。 (ユーザ外字領域の変更)
2000.3.06.
      第4部 の最後のあたりに、補記を加えた。(ユーザ外字領域の変更)




   第1部  収録文字数

 収録される漢字の字数について、次のような批判があった。

   「私案では、JCS案に比べ、使える漢字の数が足りない」

 そこで、この誤解を解くため、次の (1)〜(4) のように補足する。


 (1) 外字について

 「外字領域があると、使える漢字の数が減る」
 という批判があった。

 これは、たしかに、その通りである。しかし、だからといって、私案とJCS案とで、原理的に差があるわけではない。
 外字領域は、「ある方がいい」と思えるので私案には導入したが、「ない方がいい」となれば、私案から外字領域を廃止することもできる。

 逆に、「JCS案に外字領域を追加する」となれば、JCS案の漢字領域はその分、小さくなる。
 結局、私案とJCS案とで、本質的に差があるわけではないのだ。どちらの案を採ったにせよ、それとは別個に、外字領域を設定するかどうかを決めることができるのだ。


 (2) 記号領域について

 「私案ではJCS案に比べ、記号領域が多すぎる」
 という批判があった。
 しかしこれは、勘違いである。

 たしかに、私案では、89〜92区の機種依存文字領域を、記号領域に設定する。
 一方、JCS案では、この領域は漢字領域となる。だから、その分、私案は、漢字領域が不足するように見える。

 しかしこれは早計である。なぜなら、私案では、その分、9〜12区を漢字領域としているからである。この領域は、JCS案では記号だが、私案では漢字となる。

 つまり、9〜12区と、89〜92区の、どちらを記号領域にするか、というだけの違いであり、二つの案において、記号領域の広さに差があるわけではない。


 (3) 不要な記号について

 「私案では、使える漢字が少ない」
 という批判はあったが、実は、逆である。本当は、使える漢字の数は、私案の方が、JCS案よりもずっと多い。というのは、不要な記号を削除するからである。

 私案では、JCS案にある次の記号は、不要と見なして、排除する。
      歯科用記号  ( 7+15 個)
      アイヌ用記号 (  25 個)
             (計 47 個)
 そこで、この空いた領域(8区以前)に、次の文字を入れることができる。
      黒丸数字   (  20 個)
      丸英字    (  26 個)
             (計 46 個)

 さて、こうして移す46個の記号は、JCS案では12区にあったものだが、以上のようにして、8区以前に移される。
 一方、JCS案の9〜12区にある欧文特殊文字は、私案では廃止される。
 というわけで、私案では、9〜12区が、ほぼまるまる空く。

 この4区分、94×4個分の領域が、私案では、漢字領域に設定できる。

 つまり、私案では、JCS案に比べて、約400字(弱)だけ、漢字を多く採用できるわけである。(他の点が同じであれば──という条件が付くが。なお、次の (4) を参照。)


 (4) 89〜92区について  ( ※ 本項、削除可 )

 この領域は、本来は機種依存文字の領域である。この領域を、どうするか?

 私案では、「文字化けしても問題が起こらないように、89〜92区は記号領域とする」とした。
 この場合は、上の (3) に述べたようにはならない。9〜12区は、領域が空くので、漢字を入れることができるが、変わりに、89〜92区は記号領域となるので、同じ大きさの領域が記号に食われてしまう。 (たとえ欧文特殊文字などを削っても、変わりに、他の記号を入れなくてはならなくなる。)
 結局、差し引きゼロで、漢字に使える領域はちっとも増えない。

 しかし、別途、うまい手がある。文字化けを回避する方法は、他にもあるのだ。
 それは、ここを第五水準領域(当面は使わない保留領域)とすることである。こうすれば、この89〜92区の領域には、記号を入れなくとも、文字化けを防ぐことができる。
 そこで、この 89〜92区の領域を、そっくりそのまま第五水準の漢字領域とするとよい。これで、特に問題なく漢字を使えるし、また、(第五水準として、当面の使用を禁じることにより、)文字化けの危険も減る。

 結局、(3)(4)を組み合わせることで、JCS案に比べ、94×4個分の領域が、漢字用に設定できる。その分、漢字を多く使えるわけだ。

 【 追記 】
 ただし、ここに述べた案(89〜92区を第五水準とする)は、お勧めしない。
 私案にも述べたように、この領域は、記号領域とするべきである。(なぜなら、記号については、「文字の消失」よりも「文字化け」の方が好ましいからだ。私案で、「♪」という記号で記述した箇所を参照。)
 また、後述するように、「iモードの絵文字」というものが出てきた。つまり、必要な多数の記号が見出された。
 だから、「記号領域をつぶして、かわりに漢字を入れる」というアイデアは、好ましくない。





   第2部  記述の補足

 私案では記述が不足していたことがあるので、次のことを補足する。


 (1) 字形の変更について

 字形の変更については、すでに「私案」や「略字侃侃諤諤」で、いろいろと述べた。ただし少々、追記しておく。

 字形の変更には、まだ述べていなかったことで、次の二つのメリットがある。

 (a)  「字形の変更」が好ましい場合 …… 「略字大好き」の人にとって
 (b)  「字形の変更」が好ましい場合 …… 新JISでない環境の人にとって

 以下では、詳しく述べる。

 (a) 「略字大好き」の人にとっては、「字形の変更」をした方が好ましい。

 「字形の変更」をしたとする。たとえば「鴎」を、現在のコードポイントのまま、略字から正字に変更したとする。
 そうすると、たいていの人は、世間の標準の記法に従って、正字で記述することができる。また、現在の文書をそのまま生かすこともできる。(現JISで「鴎外」と書いた文書は、いちいち別のコードポイントに変換しなくても、そのまま使えるので。)

 一方、少数の「略字大好き」の人は、他人から送られた正字のファイルを、自分好みの略字に変更して、自己流に表示できる。(現JISのフォントを利用して。)
 「略字大好き」の人というのは、「他人が正字で書いたものでも自分は略字で見たい」という人である。だから、そういう人にとっては、字形の変更をした方が便利なのである。

 仮に、「字形の変更」をしなかったら、他人が正字で書いたものを、必ず、そのまま正字で読まなくてはならない。それでは困るだろう。「字画の複雑なものは目に悪いんだ。字画の少ない略字がいいんだ」と思う人であれば、正字を自己流に略字へ変更して表示できるのが好ましい。

 ただし、世の中には、「強制的な略字主義者」というのもいる。
 他人が「正字で書きたい」と言っても、それを強制的に否定する。「正字で書くのは絶対にダメだ。おれが略字を好きなんだから、おれの好みに合わせろ」と略字を押しつける。一種の暴君または独裁者である。
 しかしまあ、こういうのは、無視していいだろう。あなたもそれに賛同するはずだ。あなたがJCSでなければ、だが。
 (b)  新JISでない環境の人にとっても、「字形の変更」をした方が好ましい。

 新JISを用意していない環境(現JISのままの)環境の人にとっても、「字形の変更」をした方が好ましい。
 これは言うまでもないだろう。
 もし「字形の変更」をしなければ、つまり、「正字の追加」をしたなら、正字で書かれた「鴎外」は、現JISで見ると、文字が消えてしまう。
 これは困る。まったく文字が消えてしまうよりは、たとえ略字だけでも見えた方が好ましいはずだ。
 一方、「字形の変更」をした場合、正字で書かれた「鴎外」は、現JISで見ても、文字が消えることはなく、略字で表示される。だから、特に問題はない。

 なお、同じコードポイントで二つの字形が流通する、という問題があるが、それについては、以後、「新JISの方が正しい」とすれば、それで済むはずだ。(あるいは文書中で、JISのタイプを明示しておけばよい。
 そもそも、現JISは、「必要な正字がまともに出ない」という、欠陥規格である。欠陥規格などは、さっさとゴミ扱いするに越したことはない。

 新JISの制定後も、現JISはかなり長期間、生き延びると推定される。
 というのは、ハードに現JISがROMで組み込まれている場合があるからである。携帯用端末ではたいていそうだし、ワープロ専用機もたいていそうである。(ノートパソコンでも、新しいフォントを入れにくいことが多い。)
 というわけで、現JISのままの環境も生き残りそうなので、上に述べた理由で、文字の消失を避けるため、「正字の追加」よりも、「字形の変更」の方がいい、と言えるだろう。

  
【 参考 】  「字形の変更」の主な理由


 字形の変更をすべき理由を、上に二つ追加したが、主要な点は、別にある。すでに「略字侃侃諤諤」の後半にも述べたが、ここでも簡単に触れておく。

 字形の変更をしない場合、大きな混乱が生じる。たとえば、「鴎外」は、現在、正字と略字が共有されている。78JISと83JISがともに流通しているし、97JISでは(JISでいうところの)「包摂」されていることになっている。
 つまり、「鴎」というコードポイントに二つの文字が共有されている。

 しかも、である。正字の方が例外的であるなら、まだいい。しかし実際には、略字の方が例外的であって、正字の方が普通とされる。
 たとえば、日本文学関係者は電子文書で「森鴎外」「石川啄木」とか「空蝉」(源氏物語の)とかいう言葉を多用しているが、これを略字のつもりで書いている人はほとんどなく、たいていは正字のつもりで書いている。
 一般に、83JISの略字は、正字のつもりで書かれている。(だからこそ、出版社に電子原稿を渡せば、正字に直して印刷される。出版の際に、本来の意図通りの字形に修正されるわけである。)

 結局、現在、「鴎」というコードポイントに二つの文字が共有されており、しかも、そのほとんどは正字のつもりで使われている。
 このような現状のもとで、「字形の変更」をしないで、正字を追加したら、どうなるか。現在の「鴎」というコードポイントが、正字なのか、略字なのか、わからなくなってしまう。
 過去の文書(78,83JIS)では、正字のつもりである。新たな文書(新JIS)では、略字のつもりである。しかし、その文書が、過去のJISフォントを使ったのか、新たなJISフォントを使ったのかは、わからないのだ。結局、どちらとも判断できなくなり、途方もない混乱をもたらす。大きな問題となる。

 一方、「字形の変更」をすれば、この問題はない。現在の「鴎」というコードポイントはそのまま正字と解釈すればよい。新たに(略字として)追加されたコードポイントの「鴎」は、略字と解釈すればよい。これで、別に問題もなく、使い分けができる。
 (ただし、略字主義者は、これに不平を唱えそうだが。)

 結論を言おう。
 「字形の変更」をしなければ、途方もない混乱が起こる。それはまさしく途方もない混乱である。83JISの「コードポイントの交換」と同じように。あるいは、それ以上に。
 この混乱を避けるには、「字形の変更」をする以外にはない。換言すれば、現在のユーザの意図に合わせる以外にはない。

 なお、わかりやすく図式化すれば、以下のようになる。
 現状では、「鴎外」の「鴎」は、次のように記述される。
   「出版物等で」 …… 「鴎」は正字で
   「電子機器で」 …… 「鴎」は区点 1810 で
 このように統一がとれている。
 しかるに、新たに「鴎」の正字が加わったなら、電子機器の「鴎」には、二種類の文字が流通することになる。 (区点 1810 と、別の区点)
 しかも、だ。現在の区点 1810 の「鴎」が、略字と解釈されるなら、まだいい。しかし現実には、そうはならない。区点 1810 の「鴎」は、現状通り、「正字のつもり(正字の代用)」と解釈されることになる。……というわけで、二つのコードポイントで同一の正字(一方は「正字のつもり」)が流通することになり、途方もない混乱が生じる。
    ※ なお、略字は、追加しても、しなくてもいい。
      ただし一応、追加することとして、上のことを記述した。

    ※ 83JISの「コードポイントの交換」のときも、同じような
      混乱が生じた。つまり、同一のコードポイントが、新旧
      二つの字体で解釈された。それと同様なこととなる。
      (このことを、逆方向に解釈するのは、早計である。)

    ※ 83JISの「コードポイントの交換」と、「字形の変更」とは、
      まったく別のことである。注意せよ。
      「コードポイントの交換」では、二つのものが交換される。
          A ←→ B
      「字形の変更」では、二つの共存から、一方へ絞られる。
          A,B → A (または B)
      この二つの出来事を、混同してはならない。
      「字形の変更をすれば混乱する」という俗説は誤りであり、
      実は、「字形の変更」をしてもしなくても、混乱は起こる。
      ただ、した方が、しない方より、混乱が少ないだけだ。
     
    ※ なぜ、「字形の変更」をした方が、混乱が少ないか? 
      二つの共存から、一方へ絞り込めば、他の一方を捨て
      ざるを得ない。その「捨てるもの」をどうするか、の問題
      となる。字形の変更をすれば、
        「過去のフォントを捨て、過去の文書を生かす」
      となる。字形の変更をしなければ、その逆となる。
      つまり、過去の文書と、過去のフォントの、どちらを生かす
      か、という問題になる。
       そしてもちろん、「過去の文書を生かすことの方が大事
      だ
    」と私は思う。そもそも、過去のフォント(新JIS登場後
      の現JIS)を生かすことなど、しょせん無意味なのだから。
     

 (2) 人名字について

 「人名用の漢字は、そのほとんどが異体字である」

 と私案には記した。
 これは、間違いというわけではないのだが、誤解を招きかねない点があったので、補足する。

   「人名だけに使われる漢字」
 つまり、
   「辞書に一般用例が見出されない人名用漢字」
 であれば、それはほとんどが異体字(誤字)であると見なしてよいだろう。

 一方、JCS案で「人名」とだけ記されたものがある。(JCSの調査では人名にしか用例が見出されなかったもの)
 これは、事情が異なる。これらは、“JCSの調査では”人名用例しか見出されなかったが、古典などを含むもっと広い調査では、人名以外の用例も見出される可能性がある。特に、中国の用例を調査すれば、まず必ず、用例が見出されるはずだ。

 だから漢和字典の用例がある。JCSの上記の調査では、「人名」とだけ記されているものであっても、たいてい、漢和字典の番号が記述されている、ということに注意。
 一方、漢和字典の番号が(ほとんど)記されていないものもある。たとえば、例の「喜」の草体からできた異体字。これらは、日本における人名用異体字と見てよい。

 さて、それでは、何が言いたいのかというと……
 人名用の文字と言っても、次の二つがある。

   (a) 人名異体字(誤字)
   (b) JCS案で「人名」とされた文字(珍しい文字)


 (a)については、すでに私案で述べたので、ここでは繰り返さない。
    (一応、簡単に言えば、次のようになる。
     私案では、原則として、人名用の異体字は採択しない。
     ただし例外として、「はしご高」のように頻出する異体字は採択する。
     それ以外の人名異体字は、副規格として最大で1万字程度まで採択する。これらは
     タグ字またはフォント切り替えによって利用する。)


  (b)については、私案の通常の「漢字選定基準」に従えばよい。つまり、珍しい文字は、採択順位が下がるので、採択されにくくなる。
 この「漢字選定基準」に、JCSの用例調査を、追加してもよい。というのは、私案の「漢字選定基準」では、人名については特に考慮していなかったからである。 (私はそれでいいと思うが、世の中には「人名字をもっと採択しろ」と思う人もいるかもしれないので。)

 ただし、注意すべきことがある。
 JCS案では、「姓名」のうち「名」にあたる人名漢字が多く調査されている。しかし、「名」にあたる漢字は、現在の法制度では、いわゆる内閣告示の「人名漢字」にあたる文字以外は、利用が禁止されている。というわけで、JCSの調査した珍しい文字のうち、「名」にあたる珍しい文字は、たとえ採択しても、将来的にはほとんど使われなくなるはずだ。(鬼籍簿を除いて。) だから、「名」にあたる珍しい文字は、新JISに採択する必要はない。 ……このことはすでに私案でも示した。

 そう言うと、疑問の声が上がるかもしれない。
  「有名人の名前で珍しい文字が使われていたらどうするんだ」
 と。しかしそれは、問題ない。有名人の名前は、百科事典などに使われるので、普通の調査方法で、十分に引っかかる。あえて「人名用」として調査する必要はない。

 なお、私案では、「漢字選定基準」では、人名字を重視しなかった。その理由は、人名字は、いくら採択してもキリがないからである。どんなに採択しても、しょせん、JISの範囲では、(上限があるので)すべてを網羅することはできない。つまり、企業などのデータ処理には適さない。どうせ人名用の処理に使うなら、JISではなくて、もっと他の大きな文字コードのシステムを使うべきである。
 そういう点から、私案では、人名字については原則として無視した。(よく使われるものだけを例外的に採択。) …… このことについては、次に詳しく述べる。


  
【 JISの本質 】


 「JISは他の文字コードに比べて、収録できる文字数が少ないのが、弱点だ」
 という声がある。そこで、私見を述べておく。

 なるほど、JISにはせいぜい1万字程度しか収録できない。これは弱点かもしれない。しかし一方、これは長所でもある、と私は考える。

 日常的にわれわれが使う文字は、珍しい文字を含めても、せいぜい1万字程度である。そのことは、漢和字典の文字数がその程度であることからもわかる。つまり、このくらいの文字があれば、まず、たいていの場合は、間に合うのだ。

 仮に、数万字もの文字があったら、かえって不便になるだろう。たとえば、「邊」の異体字が30ぐらいあったり、「齊」の異体字が20字ぐらいあったら、正しい文字を選ぶのに骨が折れる。
 異体字だけではない。JCS案で人名用例の見出される特殊な文字の多くは、その読み方もわからないし、個人用の漢和字典にさえも乗っていない。いちいち図書館に行って、諸橋大漢和や康煕字典を引かなくてはならない。こんなものが日常的に氾濫したら、たまったものではない。
 「おれの名前はこっちの文字なんだ。間違ったあんたの会社が悪い。損害賠償として、1億円払え」
 などと会社が言われたら、どうする。
 「似た字と間違えずに、正しく使えよ。さもないと、クビだ」
 と従業員が言われたら、どうする。

 要するに、きわめて珍しい文字なんて、普通は、あっては困るのである。普通は、漢和字典にあるような、ごく標準的な文字だけあればよい。そして、そのような「標準的な文字だけを1万字程度含む文字コード規格」として、JISは標準的な位置を占めることができる。

 もちろん、世の中には、そうでない場合もある。つまり、多くの文字が必要となる場合もある。
 たとえば、仏教や漢方の専門分野で、数万字が必要となることもある。人名字で、2万字程度がデータ処理用に必要となることもある。
 こうした場合には、JISという「日本語の」標準規格ではなくて、他の規格を使うべきだろう。
 非標準的な用途には、非標準的な規格を使うのが正当だ。unicode ,TRON ,ISO 2022 拡張 ,XKP ,……など、いろいろとあるから、好みのものを使えばよい。

 さて、逆に、JISに人名字を多数入れようとしたら、どうなるか。
 この場合、標準的な日本語を書くには適さなくなる。たとえば、人名字に押しのけられて、正字が不足して、正字を使った文書が書けなくなる。
 一方、2万字程度が収録されるわけでもないから、人名用のデータ処理にも、文字不足で、役立たない。
 結局、「虻蜂(あぶはち)取らず」「二兎を追うものは一兎をも得ず」で、何にも使えないような、中途半端な規格となってしまう。

 そういうわけで、私案では、少なくとも標準的な日本語の用途には使えるよう、人名字をなるべく排除することとした。
 こうすれば、標準的な日本語には十分であるし、また、多すぎて使いにくいということもないので、便利である。

     数万字規模の大きな文字コードセットでは、たとえ「新JISだけを使う」と規約しても、余計な異体字が紛れ込んでいる可能性が無視できない。それだけのリスクを常に背負うことになる。
     この点、JISは、数万字規模の文字コードに比較して、ある意味で優位に立てる。「余計な文字が入っていない」ということが保証されるからである。

 なお、念のために言い添えると、「数万字規模の文字コードを使うな」と言っているわけではない。用途に応じて、使い分ければよい、と言っている。
   ・ 標準的に日本語の文章を書く用途
       → JIS
   ・ データ処理,専門用途,百科事典等
       → 大きな文字コード
 と使い分けるわけだ。

   (百科事典など、読むための文字コードでは、規模が
    大きいと便利。)
   (使い分けといっても、大きい方に小さい方への上位
    互換性があれば、特に混乱は生じない。)

 
         *    *    *    *    *    *


 【 付記 】  拡大JIS との関連

 以上は、「拡大JIS」(25000字案)への反論でもある。

 「拡大JIS」は、現JISや新JISとはまったく互換性のない規格である。(互換性がないとは、つまり、相互にファイルの読み取りをすると、文字化けが大量に発生する、ということ。たとえば、拡大JISの漢字を現JISで読み取れば、漢字が半角カタカナなどに化ける。)

 一部の人は、こう考えているらしい。
  「半角カタカナを禁止すれば、将来、拡大JISを導入できる」
 と。しかしこれは、あまりにも早計である。
 上に述べたとおり、拡大JISは、現JISや新JISとは互換性のない、まったく別の規格なのだ。相互に文字化けを起こす規格なのだ。「半角カタカナを使うのをやめれば」なんてことで済む問題ではない。二つの規格が併存する限り、多大なトラブルが必ず生じる。

 拡大JISは、JISの同類というよりも、unicode や TRON と同類のものである。(「南堂私案をめぐるQ&A」の Q6 でも述べた)
 にもかかわらず、拡大JISを「JISの上位規格だ」と思ったり、「そうやって第六水準などを導入しよう」などと考えている人がいるとしたら、あまりにもお粗末である。少しは文字コードというものをまともに考えてほしい。

 ついでに言えば、JCSには、この種の前例がある。それは、
  「121〜122区を新JISで使うことにしよう」
 という案である。私が誤動作の可能性を指摘するまで、まともにこの領域を使おうとしていた。しかし実際にその領域を使えば、現行のアプリがやたらと異常作動することが判明したので、途中で、この主張を引っ込めた。 ( ※ この件については、私案に詳しく述べてある。)

 で、25000 字の拡大JIS案も、これと同様である。つまり、実現性というものをまったく考慮しない、机上の空論である。

 ※
 ただし、「半角カタカナの使用を禁じる」ということそれ自体は、そんなに悪くもないと思える。
 といっても、拡大JISを導入するためではない。欧文特殊文字との互換性を「いくらか」取るためだ。(あくまで「いくらか」にすぎない。ドイツ語やフランス語を書くには、半角カタカナの領域をつぶしただけではとても足りず、さらに、漢字領域までつぶさなくてはならない。)

 さて、このように半角カタカナ領域を欧文特殊文字に変更したとしても、この場合は、1バイトと2バイトとの区切りが変更されるわけではない。だから、あまり深刻な文字化けは生じない。(せいぜい半角カタカナと欧文特殊文字の文字化けが生じるぐらいで、漢字の文字化けは生じない。)
 というわけで、拡張JIS案よりは、いくらかマシである。(現状よりマシかどうかはわからないが。……たぶん、半角カタカナを使う現状の方がマシであろう。)
 


 (3) 専門外字について

 専門外字については、別の案が考えられる。
 それは、これらの外字を「フォント切り替え」で使う、という方式である。

 このようにすることには、メリットとデメリットがある。

 結論から先に言えば、デメリットの方が大きいように思える。というわけで、この方式(フォント切り替えをする方法)は、あまりお勧めしない。
 つまり、専門外字の利用法としては、私案に記した方法(フォント切り替えをしないで1種類だけ使う方法)をお勧めする。

 なお、メリット・デメリットは、次の通り。

 メリット
 フォント切り替えにより、複数の専門外字セットを切り替えて使うことができる。
 したがって、複数の専門外字を自由に使える。たとえば、「アイヌ語」「点字」など。
 これらをアプリで自動的に切り替えたりすれば、かなり使い勝手がよい。
 「標準」という名の専門外字を用意してもよい。
 フォントを切り替えない通常の状態では、「未定義」(空白)としておく。

 デメリット
 フォント切り替えのできないエディタやメーラでは、それが使えない。常に通常状態の「未定義」(空白)となってしまう。
 ワープロなどでは、「フォント」欄に、やたらとたくさんの専門外字が入って、見づらくなる。また、通常のフォントについて「点字」などの専門外字フォントを割り当てても、無効なので、素人が戸惑う。


 (4) ローカルな各国語処理について

 欧文特殊文字の処理として、すでに HTML と RTF を示した。これらは多国語として欧文特殊文字を表示する方法である。
   ※ 詳しくは、「南堂私案」および「南堂私案をめぐるQ&A」を参照。

 ただし、 HTML と RTF は、プレーンなテキストファイルではない。
 一方、最も普通に用いられているのは、欧文特殊文字を、その国の言語でテキストファイルで書く、という方法である。
 これは、その国の言語環境でしか読み書きできない、という点で、ローカルな方法である。もちろん、日本語環境では使いにくい。(日本語エディタでは使えない。)
 ただ、最近になって、日本語環境でも、各国語の(ローカルな)テキストファイルを、ある程度は使えるようになった。
 その方法について、以下に示す。

 欧文特殊文字の読み方

 欧文特殊文字のある(各国語のファイル)を読み取る方法は、すでにある。
 それは、私案にも記した方法だ。つまり、次のようにする。
  ・ Netscape などのブラウザで、そのファイルを開く。
  ・ 表示する言語(文字セット)を、その言語(欧文など)に変更する。

     ※ 「私案」の該当個所を参照。「ネットスケープなど」という語で検索すればよい。

 欧文特殊文字の書き方

 最近までは、欧文特殊文字を簡単に書ける方法はなかった。
 MS-Word に至っては、Word95 では ANSI テキスト保存が可能だったのに、Word97,98 ではそれさえもできなくなってしまった。
 ただ、99年夏に登場した Word 2000 では、この点が相当改善されている。Word 2000 では、自由に各国語の形式でテキスト保存することができるようになった。 (ついでだが、一太郎9は、そうではない。これは日本語専用のワープロであるらしく、多国語の面では弱いらしい。そのうちいつか改善されるかもしれないが。)

 なお、Word 2000 における、各国語の形式でテキスト保存する方法は、次の通り。
 保存画面で、「エンコードされたテキスト保存」という保存項目がある。(詳しくはヘルプの「質問」タグシートで「エンコード保存」と入力して検索する)
 この保存形式を使うと、各国語の形式でテキスト保存することができる。ベトナム語、タイ語、……などの、任意の国語のテキスト形式で保存することができる。
 しかも、文字化けする文字があれば、あらかじめ赤字で表示される。(表示形式を「プレビュー」に設定しておいた場合。) ……これはなかなか便利。

 こうして、各国語のテキストファイルを保存すれば、あとは上述の通り、ブラウザを使って、正しく読み取れる。
 ただし、ブラウザでなく、日本語エディタで読み取れば、文字化けする。その点は、いかんともしがたい。
 このような文字化けを避けるには、すでに述べたとおり、HTML や RTF を使うべきである。(あるいは unicode などの文字コードを使うべきである。)
 上に述べたローカルな方法は、海外の人とテキストファイルをやりとりする場合を想定している。日本国内で各国語を併用する場合を想定しているわけではない。





   第4部  漢字と記号の選定


 (1) 漢字の選定

 漢字の選定については、別ページの 2002JIS への道 で、2738字 その他 を示した。
 それ以外で特に要調査となるのは、国語辞典の文字である。
 すでに示したように、JCSの調査では、国語辞典の文字がいくらか漏れている。. 「さんずい + 勞 」)
 そこで、この2738字にない文字(または X 0213 にない文字)で、国語辞典にある文字があれば、追加すべきとなる。
 そのような文字は、国語辞典の出版社に調査してもらうのが、一番いいであろう。大辞林、日本国語大辞典、広辞苑の三冊の出版社に委嘱するとよさそうだ。
 各社は委嘱に応えて調査してくれるか? もちろんだ。もし必要な文字がJISに採択なければ、自社のCD-ROM出版物がうまく電子的に扱えなくなる。だから、喜んで調査するだろう。 

 なお、「常用漢字に対応する正字」についても、同様の理由により、漢和字典の会社が調査してくれそうだ。大修館に委嘱すれば、大丈夫だろう。 (厭だといったら、他の会社に頼む。)
 ただ、この調査は、個人的にもすでにやっている人がいる。下記。

       http://www.sumire.sakura.ne.jp/~oguma/tron/btm19996.html

 この調査によれば、「常用漢字に対応する正字」で、「X 208 未収録のもの」は、521字だそうだ。

   ※ 私の先の推計では「500〜600字」だったが、正確な値が出たわけだ。
      ついでだが、2000JISに欠けている分は、私の推計では、200字強。



 (2) 記号の選定

 iモードの絵文字というものが必要性が高そうだ、と 絵文字 のページに記した。
 さて、これらのうち、X 0213 にない分がどのくらいかと調べると、ざっと見て、120字ぐらいありそうだ。
 このくらいであれば、欧文特殊文字を省いた領域に、代替として、十分入る。だから、iモードの絵文字は、すべて取り込める。
 なお、問題は、領域である。
 領域としては、次の2案がある。
  ・ iモードの領域をそのまま使う。 (F89F〜F9AF)
  ・ 私案の通り、89〜92区を使う。
 前者だと、iモード以外の環境では、メールで当面は使えなくなって、困る。また、重複分(iモードの絵記号のうち、すでに採択予定済み)の記号の箇所が虫食いになって、まずい。
 後者だと、iモードには若干不便だが、他の環境ではまったく問題ない。
 とうわけで、後者がいいだろう。
 なお、当面は iモードの領域(F89F〜F9AF という高位領域)を、私案でいう「第五水準」としておくとよい。詳細は、下記。

 詳しく言うと……
 一般のパソコンでは、この領域は当面は使わず、保留領域としておく。(ユーザ外字領域 EUDC と同様。)
 一方、携帯電話(機器)では、当分の間、この領域と、89〜92区の領域を、ともに記号領域としてサポートしておく。(機器では同じ絵記号が2領域にダブるわけ。現在の領域と、新しいJISの領域)
 そうしておいて、iモード用ホームページについては、iモードの領域(F89F〜F9AF)の記号から、89〜92区の記号へ、書き換えを促す。
 そして、一定期間後、第五水準を施行する。このとき、iモードの領域(F89F〜F9AF)の記号は廃止され、ここには漢字が割り当てられる。同時に、携帯電話の機器および一般のパソコンでは、第五水準に対応するようになる。
 以上のようにすれば、特に問題はないはずだ。 (それ以外のやり方を取った場合、iモードかパソコンか、どちらかで多大な混乱を引き起こしそうだ。)


 【 注 】 ユーザ外字領域との関係
 Windows の「ユーザ外字」との関係で言えば、「ユーザ外字」領域(F040〜F9F0)の後半の一部に、iモードの領域は重なる。
 だから、「ユーザ外字」に対する私案の方法(つまり「第五水準を設ける」という方法)が、そっくりそのまま使えるわけだ。 (それが、上に述べたこと。)


 【 追記 】 ユーザ外字領域の変更

 私案では一応、「ユーザ外字領域は、現在のEUDC領域( 95〜114 区 )のうち、初めの方( 95〜97 区 )を使う」とした。
 しかし、EUDC領域のどの部分を、私案のユーザ外字領域として選ぶかは、自由である。
 そこで、iモードの領域( F89F〜F9AF = 11201〜11417 = EUDC領域の末部付近 )を、私案のユーザ外字領域に選定することもできる。この方がよさそうだ。
 このようにした場合、「ユーザ外字領域」の文字は、初期設定では、iモードの文字を設定することができる。当面は、そのように初期設定をしておくと便利かもしれない。(将来的には、初期設定では、空白となる。)
 ともあれ、このようにすれば、iモードの文字化けについては、ほとんど問題なく対処できる。

  ※ ユーザが、正しい89〜92区のiモードの記号を使わず、間違って、
     ユーザ外字の文字を使う、という危険性はある。しかし、それは、
     IMEの記号出力ツールで、何らかの警告を出すようにしておけば、
     問題ない。 (EUDCファイルのチェックなどをすれば可能。)
      [あるいは機種依存文字と同様に、太字や斜体や歪んだ図形
       などに変えてもよい。]

  ※ 「ユーザ外字というものが必要だ」という事実が、ここでもわかる。
     「ユーザ外字をすべてつぶす」(保留領域も僅か)というJCS案が、
     いかに奇妙な考え方をしているか、はっきりとする。 社会が変化
     すれば、新しい記号が必要とされるようになるのだ。 そして、新し
     い記号というものは、発生当初は、公認されていないのである。

  ※ 前述のように、iモードの外字は、Windows のユーザ外字領域に
    重なる。そこで、このことを利用して、Windows のユーザ外字領域
    に、iモードの外字を取り込むと便利である。なぜなら、そうすれば、
    パソコンでも、iモードのホームページを正しく見ることができるから
    だ。
     このようなソフト(Windows のユーザ外字として、iモードの外字
    を使えるソフト)は、すでに存在する。下記。
         http://www.vector.co.jp/authors/VA018010/
    もちろん、これを利用してもいいのだが、Windows でも、近い将来、
    これをあらかじめ取り込んでおくことが好ましい。そうしておいても、
    特に問題がない、ということは、前述の通り。


   【 補記 】 外字領域について

 「ユーザ外字領域は、現在のEUDC領域の後ろの方を使えばよい」
 と上に述べた。ここでは、iモード領域の166字を含む、188字(= 94字×2=2「区」だけの分) を想定していた。
 ただ、現在、実際に使われているユーザ外字は、EUDC領域の初めの方であるのが普通だろう。わざわざ後半から使い始める人はあまりいそうにない。
 そこで、EUDC領域の初めの方も50字弱程度は、新たなJISでもそのままユーザ外字領域として残す方がよさそうだ。また、先の188字から166字を除いた分の22字分の領域については、新たにユーザ外字として残す必要はなさそうだ。
 以上のようにした場合、メリットとデメリットは、次の通り。
 メリット
   ・現在の外字のほとんどをそのまま使える。
 デメリット
   ・領域が二つに分割されるので、設計が少し面倒。
   ・領域が二つに分割されるので、既存ユーザ以外の
    新規ユーザは、番号設定のとき、少し戸惑う。

 というわけで、メリットはかなり大きいが、一時的である。一方、デメリットは小さいが、永久に続く。
 どちらがいいとも、判断しがたい。ここは思案のしどころかも。





  【 付記 】 iモード と 2000JIS(X 0213)

 iモード と 2000JIS の関係はどうなるだろうか? (ついでにちょっと考えてみよう。)
 iモード が「独自の絵文字を、将来使用できなくする」ということは、ありえない。仮に、そんなことをするとしたら、自己否定である。それはもはや「iモード」とは呼べなくなり、「Jモード」になってしまうかもしれない。(J-Phone あたりから苦情が来そうだ。)
 というわけで、iモード が 「2000JISを採用する」(そして独自の絵文字を使用できなくする)ということは、ありえない。(両者で領域がダブっていることに注意。)
 結局、もし 2000JISが施行されて普及した場合、次の問題が出る。
  • iモード では 2000JISが採用されず、二種類(以上)のシフトJISが世間に併存する。
  • その二種類のシフトJISの間で、相互に文字化けが起こる。
     (例:お天気マークなどの記号が、漢字に化ける) だから、携帯電話と、一般のパソコンとで、相互に互換性が取れなくなる。
 このような問題がある以上、2000JIS(X 0213)は、やはり、施行せず、お蔵入りとするべきであろう。さもなくば、今後、iモードがひろく普及するにつれ、大問題が生じる。
( iモードでは、銀行の金銭出入や、チケット購買などもなされるから、なおさらだ。単に「ホームページを見るだけ」ではないのだ。)
     2000JISでは、「文字種の文字化け」(例:「漢字/記号」)が生じる。
     83JIS改訂時には、「字体の文字化け」(例:「濤/涛」……意味は同じで字体だけ変わる)が生じたが、2000JISでは、それをはるかに凌ぐ文字化けが起こるわけだ。
     避けることは簡単にできるのに、わざわざこのような問題を起こすとすれば、途方もない愚挙であろう。 ( JCSは「すばらしい快挙!」と思っているらしいが。しかし、もしかしたらそれはJCSの文字化けで、本当は「怪挙」なのかも。)


  ※ iモードの絵文字については、読者から、いろいろとご教示を得た。
     ただし、上の 2000JIS 批判については、イヤミな南堂に文責がある。




   第5部    タグ字の記述法

 
  タグ字については、その記述法を、私案の方法から、変更することにする。
  私案では、次のように記述する、とした。
 

     ∈サンプル∋
 
  たとえば、「大きな文字サイズ」や「小さな文字サイズ」ならば、次のようにする。
 
    <小]   [小>
    <大]   [大>
 
  しかし、この記述法だと、同一種に付き、「開始タグ」と「終了タグ」の双方が必要であり、不経済である。そこで、「終了タグ」については、「開始タグ」を流用して、次の形式にすることに改める。
 
     「開始タグ」のあとに、半角のセミコロン ; を付ける。

  例示すれば、次のようになる。
 
      {小}サンプル{小};
      {大}サンプル{大};
 
  こうすれば、最後に半角の ; を付けるだけで、開始タグと終了タグを区別できるので、同一のタグ字を共用できる。


 【 参考 】 HTMLとの関連
   なお、参考までに言うと……
   この方法は、HTMLなどの記述法に準じている。
   HTMLでは &#01234; のような記述法で特殊文字を表す。
   この記述でも、最後に半角の ;  があることに注意。
 
 
 【 参考 】 HTMLのタグとの関連
  なぜタグ字を使い、HTMLのタグを使わないか、という疑問がある。
  これについては、「私案をめぐるQ&A」の Q7 のところで答えた。
  そちらを参照。

 
 【 参考 】 タグ字の字形
  上例では {大} のように、既存の文字を組み合わせて表示した。
  しかし、本来のタグ字は、1文字である。 {大} よりは  という
  文字の方が近いかもしれない。
  ただ、外枠は四角である必要はない。また、白黒反転してもよい。
 

[ END ] 




          作 者 名  南堂久史    
          Eメール  nando@js2.so-net.ne.jp


          「文字コードをめぐって」表紙ページ  へ戻る