《 概説 》

 異体字とは何か?
 ここで「異体字」というものを定義することにすれば、次のように言える。

     “異体字とは、同等の文字でありながら、異なる字形をもつものである。”

 そこで、二つの点が問題となる。

 [1]

 ひとつは、「同等の文字とは何か」という問題である。異体字は、単なる同義字とは少々異なるからだ。
 たとえば「箱」の意味をもつ文字はいくつもある。「函,筐,笥,匣,……」など。これらの文字がすべて異体字であるわけではない。(その多くは、読みの音が異なり、別字である。)
 また、たとえ同義かつ同音であっても、別々の字と見なされる場合もかなりある。(ただし同義かつ同音であるものは、広義の異体字と見なされることも多い。)

 一般的には、字の由来(起源)が同じであるようなものを、(狭義の)異体字と見なせる。
 狭義の異体字は、もちろん、広義の異体字に当てはまる。つまり、同義かつ同音である。のみならず、字の由来(起源)が同じである。
 そこで、字の由来(起源)が問題となるが、この点は、比較的はっきりとしている。漢字の起源や歴史は、学問的に研究されており、その成果は十分なものであるからだ。たとえば「学研漢和大辞典」を見れば、楷書以前の漢字の由来(篆書・甲骨文字など)がわかる。

 ともあれ、このように文字の系譜は比較的はっきりとたどれるので、文字の由来についてもはっきりとわかる。どの字とどの字が起源を同じくするか異にするか、はっきりとわかる。
 というわけで、狭義の異体字を理解することができる。

 実際の例で言えば、異体字の多くは、書き方の差から生まれたものである。次のような例がある。
 (1) 位置の変化
      略/畧   峨/峩
 (2) 筆跡の変化
      冊/册
 (3) 字形の簡略化
      憩/憇
 (4) 略字化(新字体化)
      籠/篭
 ただし、このような例に当てはまるものばかりとは限らない。一見、まったく別の字形であるような例もある。 (起源が同じであるにもかかわらず。)

 一般的には、「略字/正字/俗字/古字/本字」などは、たがいに異体字と見なせる。
 「一」と「弌」と「壱」などは、それぞれ字の由来を調べればわかる。
 (普通、「弌」は「一」の古字とされる。「壱」はそれらとは、起源がいちおう異なる。)


 [2]

 異体字には、もうひとつの問題がある。それは、「異なる字形とは何か」という問題である。

 第一に、字形が明らかに異なる場合がある。
 第二に、字形が少しだけ異なる場合がある。

 後者の場合、それらのさまざまな字形のバリエーションのうち、どこまでを同じと見なし、どこから先を異なると見なすか、という問題が生じる。これは一種の類別(クラス分け)の問題でもある。
 たとえば、次のように。
 ・ 「しんにょう」で、楷書体と明朝体を、同じと見なすか、異なると見なすか。
 ・ 「しんにょう」で、1点しんにょうと2点しんにょうを、同じと見なすか、異なると見なすか。
 ・ 「草かんむり」で、3画のもの(「‡」 を横にする)と、4画のもの(「 ++ 」および「 ┤├ 」)があるが、これらを、同じと見なすか、異なると見なすか。

 これは「包摂」の問題である。
 以上のようなことを明らかにすることが、包摂を明らかにするということである。

 包摂を明らかにするための原理、というものはない。「文字の由来を調べればわかる」というような単純な話では済まない。
 にもかかわらず、包摂というものを明らかにすることは、大切である。このことは、多くの人々が強調している。ただ、問題は、どうやって明らかにするか、である。そのためのうまい方法は知られていない。そこに問題がある。「異体字の問題とは、包摂の問題だ」と言ってもいいくらいである。
(ここに、異体字の迷宮の、最大の点がある。)

 JISの担当者も、もちろん、このことは十分に留意していた。そこで、97JISでは、ひとつひとつ列挙する形で、包摂を定義した。たとえば「鴎」の新字体と旧字体を包摂するとする、などと。
 しかし、これは不十分なものである。そのようなことでは、異体字の迷宮からは脱出できない。
 この文書では、以下において、この問題を解きほぐすための、新たな道筋を示す。




 《 本論 》

 第1章 字形差

 先に述べたように、異体字は次のように定義できる。

     “異体字とは、同等の文字でありながら、異なる字形をもつものである。”

 そこで、まず初めに、「異なる字形とは何か」について、明瞭に示すことにしたい。
 たとえば、「飲/飮」は両字体で字形の差が少ないが、「区/區」とか、「寿/壽」とかは、両字体で字形の差が大きい。
 こうしたことは、見た感じでなんとなく、字形の差が「大きい」とか「小さい」とか言うが、この点をもう少し明瞭にしたい。すなわち、字形の差というものを、数量化するわけである。

 そこで、次の基準を打ち立てる。

  「字形の差の大小を、画数の差により定義する」

 具体的には、画数を次のように調べる。

 このうちの、画数差に注目するとよい。
 すると、「飲/飮」では画数差が小さく、「区/區」や「寿/壽」では画数差が大きい、とわかる。
 そこで、前者では字形の差が小さく、後者では字形の差が大きい、と見なすことができるわけだ。


 上の方式では、総画数の差だけを見た。
 しかし、この方式だと、総画数が同じで字形が異なる場合も、差が小さいと見なされてしまう。たとえば、「崎/埼」は、総画数がどちらも 11で、画数差が 0 である。

 このような場合について差を見るには、字画の異なる部分だけを見るといい。
 たとえば、 「崎/埼」では、両者に「奇」という共通部分がある。
 ここを無視して、他の「山」および「土」の部分に着目する。前者は3画、後者も3画。総画数はどちらも 11 。
 そこで、このときの 3/11という値を「相違画数比」と呼ぶ。これを、字形差の大小の目安とする。
 「崎/埼」の場合はどちらも総画数が 11だった。だからどちらの文字を取っても、相違画数比の分母は11 で同じだった。
 一方、総画数が異なるときは、総画数の多い方に着目して、分母を得る。
 たとえば「区/區」では、「區」に着目する。こちらの総画数は 11 。そこで、この 11 という値を、相違画数比の分母とする。分子は、(共通する「匚」は無視して)「品」が 9 画なので、9 となる。そこで、 「相違画数比」は 9/11となる。

 一般的には、上述の「画数差」および「相違画数比」を見れば、字形差の大小は数量的にわかる。
 例を挙げよう。

  「飲/飮」……画数差は1で、相違画数比は 2/13 (または 3/13)。
  「区/區」……画数差は7で、相違画数比は 9/11。
  「寿/壽」……画数差は7で、相違画数比は14/14。
  「崎/埼」……画数差は0で、相違画数比は 3/11。
  「略/畧」……画数差は0で、相違画数比は0。
          (「田」「各」の部分字形は同じで、位置だけが異なる。)

 以上のようにして、字形差の大小を数値化することができた。
 一般的には、「画数差」および「相違画数比」が大きいものは、包摂されないことが多く、「画数差」および「相違画数比」が小さいものは、包摂されることが多い。



 第2章 包摂


 §2−0 包摂

 包摂とは、微妙に異なる二つの文字を同一の文字と見なすことを言う。
 そこで、どの文字とどの文字を同じと見なし、どの文字とどの文字を異なると見なすか、ということを考えるときには、包摂が問題となる。これは異体字を考える場合の、最大の問題である。


 §2−1 JISの包摂

 ところで、JISでは、この「包摂」という言葉を、勝手に別の意味で使っている。その点に、注意するべきである。
 JIS(97JIS)でいう「包摂」とは、文字コードや異体字の用語でいうところの包摂のことではない。それは、本来包摂と少しだけは似ているが、まったく別の概念である。
 JIS(97JIS)でいう「包摂」とは、

     「ある文字が、78JISと83JISとで、同じコードポイントを用いる」

 ということである。これはもちろん包摂ではないが、JISではどういうわけか勝手に自己流の言葉遣いで、「包摂」という言葉で呼んでいる。

 たとえば、「鴎」の正字と略字は、78JISと83JISで同じコードポイントをもつので、JISでは「包摂される」という。ただし、「欧」と「歐」は78JISでも83JISでも別個のコードポイントをもつので「包摂されない」という。
 また、「鴎」の正字と略字は、現時点では同じコードポイントをもつので、「包摂される」というが、将来、これらに別個のコードポイントを割り振ることになれば、これらは一転して「包摂されない」ことになる。

 ある文字をひとつのコードポイントに割り振るか否かを示すのに、JISでは「包摂」という言葉を用いているが、もちろん、これは不適切である。むしろ、「包含」というべきであろう。
 JISの用語を決める担当の関係者は、自己流の勝手な言葉遣いをすることが多い。たとえば、「レビュー」とか「レパートリー」とかの言葉を、通常とはまったく別の意味で自己流に用いている。 (あえてそうしているというより、言葉の正確な意味を知らないせいであるらしい。そもそも唐突に奇妙な外来語を持ち込む、というところに、言語感覚の異常さが窺える。) ともあれ、このようなJISのデタラメな言葉遣いのひとつが、この「包摂」という言葉である。

 したがって、読者としては、JISでいう「包摂」を、通常の意味の「包摂」と混同してはならない。注意してほしい。 (たとえば、「間」の新字と旧字はJISで包摂されている、だからこの二つの字は同じ字だ、……などと誤認してはならない。)


 【 付記 】
 JCSの一部委員は「97JISは過去の包摂概念を再編集し明確化しただけ」と主張しているようだ( mt-gene.pdf )。 しかし、これは勘違いであろう。
 78JISも83JISも、略字と正字を「包摂する」というようなことは示していない。どちらか一方だけを取ることを示している。78JISの正字と83JISの略字を勝手に「包摂」という概念でくくっているのは、97JISである。
 78JISと83JISは、本来は別々のものであるから、別々の規格として、「併存」または「並立」としておけばよい。にもかかわらず、97JISでは、「包摂」という言葉を使って、両者を強引にいっしょくたに共存させようとした。ここに無理が生じたのだ。
 「鴎」の略字と正字は別のものである。包摂はされない。にもかかわらず、「包摂」という言葉を使えば実際に包摂される、とでも思い込んだのだろう。
 しかし、包摂でないものを「包摂」と呼んだところで、現実の実態が変わるわけではない。白を「黒」と呼んでも、白が黒くなるわけではない。しょせん、白を黒と言い含めるようなことは、するべきではないのである。

 【 付記 】
 JCS では、「包摂規準/包摂基準」というふうに区別して、「基準」ではなく「規準」が正しい、と主張することもあるらしい。
 しかし、これは本来、些末なことである。「基準」と「規準」で、意味に大きな差があるわけでもない。英語にすればどちらも standard であろう。こんな枝葉末節なことよりは、「包摂」という本来の概念を、間違えずに使ってもらいたいものだ。
 包摂とは、本来は、哲学用語である。個と一般(類,クラス)の関係を示す。この基本に立ち返って理解しなくてはならない。


 というわけで、JISの「包摂」という用語は無視すべきものであることがわかった。
 そこで、以下では、JISでいう「包摂」に惑わされずに、この言葉の正しい意味に従って、包摂というものを考えよう。

 包摂とは何か? 
 このことは、実は、はっきりとは定まっていない。
 しかし、このことをはっきりと定めるべきだ、ということは、多くの人が言っている。
 そこで、問題は、どのように定めるか、ということである。

 97JISでは、「包摂」を、「個別の列挙」という形で示した。
 そのやり方自体は、そう悪くはないのだが、そもそもの話、原則が包摂ではなくて(文字コード上の)「包含」にすぎなかったため、かなりおかしな結果が導き出された。
 たとえば、「鴎」の正字と略字を包摂し、「欧」と「歐」を包摂しない、というのもそうである。
 また、「間」を部分字形としてもつ正字と略字があるのだが、この正字と略字という、明らかに別の二つの文字を、包摂する、というのもそうである。 (略字は「門」のなかに「日」、正字は「門」のなかに「月」。たとえば「癇」など)
 このように、個別の例を列挙したのだが、その個別列挙というやり方はいいとしても、実際に示したのは、「包摂」の例ではなくて、文字コード上の「包含」の例にすぎなかった。したがって、結果的には、あまり意味のないものとなった。


 §2−2 ISOの包摂


 JISの他には、何かよいものは見られないだろうか? 
 比較的よくできた包摂概念としては、次のものがある。

  「 ISO 10646のユニフィケーション・ルール AnnexT 」

       ※ 下記に言及がある。
          ほら貝   「アジアの漢字と文献処理」レポート 

 ここに記された説明によると、中国では『四庫全書』の電子化が行われ、その際に、この包摂規準に従ったのだそうだ。
 この包摂規準は、たとえ完全なものではないとしても、言語学的な意味での包摂を示したものであるから、JISでいうところの「包摂」(つまり、包含)とは異なり、それなりに信頼の置けるものであろう。
 たとえば、次のものは包摂されないから、それぞれ別個に文字の対応を見出せるそうだ。 (詳細は上記ページ参照)
        


 ここでは、「新字/旧字」もしくは「略字/正字」という区別ははっきりと見て取れる。
 というわけで、これは、JISでいうところの「包摂」とはまったく異なる、本来の包摂である。

 ただ、この「ISO 10646のユニフィケーション・ルールAnnexT」だが、これは、あくまで「ISO 10646」における一案にすぎない。絶対的なものというわけではない。
 これはおそらく、実務上のために導き出されたものであろう。とりあえずは、そこそこ便利であろうが、学術的に深く吟味されたものではなさそうだ。
 そこで、包摂というものを、より深く考えてみることにする。


 §2−3 包摂と本質


 そもそも、包摂とは何か? その本質は何か? 
 われわれが通常、包摂というものを考えるとき、そこに見出される幾何学的な差異に注目する。たとえば『線と線がくっついている』とか、『線が少し突き出ている』とか。
 こうしたことは、たしかに、印刷された文字を見る限りは、非常に重要である。

 しかし、私は、あえて異を唱えたい。
 「『線と線がくっついている』とか、『線が少し突き出ている』とか、そういったことは、本質的ではなく、二の次の問題である」
 と。

 では、何が本質的か? 私はそれを、次のように主張する。
 「手書き文字における筆跡(筆運び・運筆)こそが重要である」
 と。

 漢字とは、単なる記号の一種ではない。それは、人間の書いた手書き文字を、象徴化したものである。だから、単に数学的・工学的にパターン認識で判断するのではなく、人間の認知に還元して判断するべきなのだ。私はそう思う。
 ( cf. 数学的・工学的なパターン認識の研究分野がある。そちらを参照。)

 たとえば、「○」という記号がある。これを手書きで書くと、いびつに歪むことがある。もちろん、いびつに歪んでも、数学的(トポロジー的)には、同じ図形である。さて、いびつに歪むだけでなく、一部が足りなくて途切れたり、あるいは逆に、一部が長すぎて交差したりすることがある。この場合は、数学的(トポロジー的)には、別の図形となる。しかしながら、そのように多少の違いがあっても、手書きでは、同一の図形と見なすのが普通である。
 つまり、数学的・工学的にパターン認識で「別の字形」と見なされるか否かには、あまりとらわれない。手書きの場合に普通生じるような運筆における差異については、無視する。書くときにあえて意図的になした差異についてのみ着目する。──これが私の主張である。

 こうした点について詳しく述べると、以下のようになる。


 §2−4 包摂の詳細


 包摂は、運筆における差異については無視して、意図的になした差異についてのみ着目する。……これが原則である。
 この原則のもとで、具体的に詳細を定める必要がある。以下、列挙する。

 (1) 手書き文字で運筆の差に相当する差は、原則として、包摂される。(印刷字体で)

 たとえば、次のような例。

 ・ 「口」(くち)という字の、右側縦線が下方に、はみ出していているか否か。
 ・ 「口」(くち)という字の、底辺の右端が、右側縦線に接触しているか否か。

 一般的には、次のように言える。
 たとえば ┴ のような字画の箇所があったとする。この縦線は、横線にぴったりとくっついているのが標準だとする。しかし標準ではそうだとしても、この縦線がわずかに不足している[横線にくっつかないで、ほんの少し離れている]とか、この縦線がわずかに過剰である[横線を突き出ている]とか、そういったわずかな図形差があるとしても、その図形差を無視して、同じ文字だと見なす。(包摂される。)
 以上のようなことは、手書きの文字で、そのような差があっても、同一の文字と見なされるからである。(個別の例は後述する。)
  ※ 一般的な原則が適用可能。字ごとの個別の差はあまりない。

 (2) 書体の差と見なされるものは、原則として包摂される。

  「火」の明朝体と教科書体(楷書体)には、差がある。1画目が、前者では右に傾いているが、後者では左に傾いている。
 これは書体による差なので、一般的には無視してよい。すなわち、包摂される。
   ※ 手書きでは、この例は、あまり差が見られない。明朝体のように書か
     れることはほとんどない。
   ※ (1)のように、見てすぐにわかるものではない。
     個別の例ごとに、歴史的・慣習的に、いちいち詳しく見る必要がある。

 (3) 明らかに別の字となるものは(1)の例外となる。

 「巳/已」とか、「已/己」とかは、 (1) の基準を強く適用すれば、二つの文字が包摂されることになりそうだ。
 とはいえ、歴史的・慣習的に、これら両者はたがいに別の文字とされている。というわけで、このような場合には、(1) の例外となる。
 このような例外は、例外としていちいち列挙された場合にのみ、当てはまる。
   ※ 例外であるから、いちいち列挙する必要がある。
      「例外の一般原則」というのもあるかもしれないが、何とも言えない。
   ※ どういう場合を列挙すればいいかというと、そっくりで別の文字がある
      場合である。「巳/已/己」は、別の文字である。「土/士」も同様だ。
      これらは、(1) では「包摂」と見なされそうなほど、とてもよく似ている。
      そういうものを探せば、列挙できる。

 (4) 手書き文字で運筆の差にすぎなくとも、印刷書体では幾何学的に別の形となるものは、例外と見て、個別に考慮する。

 楷書体では運筆の差にあたるが、明朝体では幾何学的な差をなす、という場合がある。

 たとえば、「薇」がそうである。この字では、中央の「一」の下が、JIS字形では「几」で、国語審議会の印刷標準字体では「儿」である。このように明朝体では、幾何学的には異なる形をもつ。一方、手書き文字では、これらは運筆の差とも見なせる。歴史的に行書のさまざまな例を見ると、「几」のような例もあるし、「儿」のような例もあるし、その中間的な形の例もある。

 特に顕著なのは、「七」と「ヒ」の差にあたる文字である。この部分字形をもつ文字が、同じ文字として包摂されることは非常に多い。たとえば「梍」の78JIS字形と83JIS字形がそうである。前者では「ヒ」となり、後者では「七」となる。また、両者の中間的な字形「匕」となることもある。(このことについては表紙ページの資料「略字&正字」の data-add.htm の 【 鴇 と 梍 】 というところで、詳しく述べた。)

 ここに述べたような場合については、一般的にいえば、包摂するのが妥当である。ただし厳密には、(文字ごとでなく部分字形ごとに)個別に考慮するべきである。
 たとえば、「七/ヒ」の差は包摂する、などと、列挙するべきである。その上で、それに当てはまるか否かを、文字ごとに列挙するべきである。たとえば、「梍」はそれに当てはまる、などと。

 また、ここで述べた包摂は、(1) で述べた包摂とは明らかに異なる。そこで、何らかのコメントや情報を付けておくことが好ましい。
 単なる「包摂」とは呼ぶと、(1) の「包摂」と同種ものと勘違いされる恐れもあるので、別種のものであることを明示するために、別の名称を付けるといいかもしれない。たとえば、「種別包摂」とかいう言葉を用いて、「梍」の78JIS字形と83JIS字形について、「種別包摂の『七/ヒ』に該当する」などと記述するわけだ。これによって、(1) で述べた包摂とは異質なものであることが判然とする。

 (5) 部分字形が明らかに異なるものは、包摂しない。

 このことは、当然であろう。ただ、97JISではそうなっていないので、ここに明示しておく。
 たとえば、「間」の新字と旧字がそうである。「門」のなかが「日/月」で異なる。そして、「日/月」は明らかに別の文字である。ゆえに、この箇所が異なる文字もまた、別の文字となり、包摂はされない。 

 一般的には、新字と旧字の差にあたるものは、包摂されない。 (なぜなら、両者を区別する必要がある場面は、とても多いからだ。)
 具体的な例としては、「勺」の中央の点は、新字と正字で、点が斜めか横か、という差がある。このことは、「勺」を部分字形としてもつ文字(「釣,的,約」など)でも、同様である。(一般的に、78JIS字形では正字、83JIS字形では新字・略字。)
 この「勺」の差は、(1) の「運筆の差」に該当するので、本来ならば、包摂してよい。しかし、新字と旧字という差があるので、別の文字と見なす方が自然である。

 一方、「言」の1画目が斜めか横か、という差は、「勺」とよく似た事情にあるが、新字と旧字の差に相当しないので、別の文字とは見なさない。「食」の3画目も同様だろう。


 さて、以上に (1) 〜 (5) の原則を示した。この原則のもとで、細かく述べることにしよう。


 (1) に該当するもの。

 「横線が縦線に、くっつく/届かず/ちょっと突き出す」
 「縦線が横線に、くっつく/届かず/ちょっと突き出す」
  にあたるものは、包摂。
 
 例:
 ・ 「月」の横線が縦線に〜。
 ・ 「斤」の横線が左側縦線に〜
 ・ 「乕」の横線が左側縦線に〜。
 ・ 「巾」の横線が左の縦線に〜。
 ・ 「虎」の「七」のてっぺんが横線に〜。

 次のものも、同様。

 ・ 「牙」の上側横線の左上が、突き出る/突き出ない
 ・ 「斤」の横線が左上の角に、くっつく/少し下にある
 ・ 「冉」の中心横線が、縦線の外側に突き出る/突き出ない (78JIS/83JIS)
          (媾 搆 稱 苒 覯 遘 も同様。)
 なお、これらの例については、先のも述べた資料「略字&正字」の data-add.htmの真ん中へんにある表に、いろいろと例を示してある。デザイン差とか包摂とかいう言葉を用いている。上の「冉」もそうである。

 (2) に該当するもの

    以下はいずれも、書体差に相当するので、包摂。

 ・ 「火」の明朝体と教科書体(楷書体)。
     (1画目が、右に傾いているか/左に傾いているか)
 ・ 「北」の明朝体と教科書体(楷書体)。
     (左半分の下方が、下に突き出ているか/右に突き出ているか)
 ・ 「比」の明朝体と教科書体(楷書体)。
     (左下が、 ⊥ か/ L か)
 ・ 「言」の明朝体と教科書体(楷書体)。
     (第1画が、 寝るか/斜めか/縦か)
 ・ 「しんにょう」の明朝体と教科書体(楷書体)。 
     (その部分が、「ろ」のようになっているか/「コ」か「フ」のようになっているか。
      なお、  「ことば会議室」のページ  [および 続編 ]  を参照。)

 (3) に該当するもの (運筆の差にあたるが、例外的に包摂されないもの)

 ・ 「巳/已」,「已/己」  (「巽」 の78JIS字形と83JIS字形もその部分がそう。)
 ・ 「刀/力」,「刀/ク」 (「冤」の83JIS字形は「ク」の部分がある。正字は「刀」)
 ・ 「土/士」

 (4) に該当するもの (運筆の差にあたるが、印刷書体では個別に考慮すべきもの)

 ・ 「草かんむり」の「++」と「 ┤├ 」
   …… (1) を極端にしたものと見なせる。包摂とも見えるが、微妙。
       一般用例を見て、デザイン差と見なせるので、包摂。
      ※ 「草かんむり」の3画と、4画の「++」とは、画数が異なるので、非包摂。
 ・ 「天」の二つの横線の長さ。(上横線が長い/下横線が長い)
   …… 運筆の差とも見なせるが、微妙。
       一般用例を見て、デザイン差と見なせるので、包摂。
 ・ 「吉」の二つの横線の長さ。(上横線が長い/下横線が長い)(士/土)
   …… 運筆の差とも見なせるが、微妙。
       語源を見れば、「土」の方は、日本における誤記にすぎない。
       しかし人名としては、こちらも異体字として広く用いられているという事実もある。
       また、部分字形「土/士」が異なる文字として別個にある、という事実もある。
       この二つを包摂するか否かは、微妙なところ。ただ、異体字として社会的認知を
       得ている、という事実を重視して、非包摂とするのが妥当と言えそう。
 ・ 「牙」の左側の短い縦線。(やや傾いているか直立しているか)
       微妙なところ。下記資料を参照。
         国語審議会 http://www.monbu.go.jp/singi/kokugo/00000005
         国語審議会 http://www.monbu.go.jp/singi/kokugo/00000007
       これを見ると、包摂した方がいいようだ。
       なお、「芽」「冴」「呀」「訝」「谺」なども同様。
 ・ 「七」と「ヒ」の異体字。
       微妙なところ。先に述べた通り。一応、包摂した方がいいようだ。

 (5) に該当するもの (部分字形が異なるので、包摂されないもの)

 次のものは「画数差」や「相違画数比」がはっきりとあるので、包摂されない。
 ・ 「高」の「はしご高」と「くち高」(Hふうと口ふう)
   …… 画数差などを見ても、明らかに別字なので、非包摂。

 次のものは「画数差」はないが、幾何学的に異なる字形なので、包摂されない。
 ・ 「冊」と「册」 (漢和字典では「同字」とされることが多い。JISでは別々。)
     ※ 「柵」も同様。ただし、「珊」の「冊」の左右が突き出ていないものは (1) で包摂。 

 次のものは「画数差」や「相違画数比」がはっきりとあり、かつ、新字と旧字という差もあるので、包摂されない。
 ・ 「1点しんにゅう」と「2点しんにゅう」 (後者は1点多い)
 ・ 「者」の新字と旧字 (旧字は1点多い)
 ・ 「飲」と「飮」
 ・ 「区」と「區」  :「鴎」の略字と正字も同様。 

 次のものは「画数差」や「相違画数比」はないが、新字と旧字という差があるので、包摂されない。
 ・ 「間」の新字と旧字 (日 / 月) : 「燗,癇」も同様
 ・ 「半」の新字と旧字 (ソ / ハ) : 「叛,伴」も同様
 ・ 「勺」の新字と旧字 (ヽ / −) : 「灼,芍」も同様
 ・ 「凡」の新字と旧字 (ヽ / −) : 「筑,梵」も同様


 §2−5 包摂についての付言


 以上で、包摂というものを、いちおう示した。読者はこれを、どう思うだろうか?
 「何だ、当たり前だ」
 と思うかもしれない。しかし、そう思ってもらえるようなら、ありがたい。

 私が示そうとしたのとしては、自己流の独特の見解などではない。あくまで万人に素直に受け入れてもらえるようなことである。
 私が本論で狙ったのは、独自の見解ではなくて、包摂というものをはっきりと明確化することである。
 
 なお、私の見解とは異なるものとして、97JISの包摂規準がある。これが本来の意味の「包摂」ではないことは、先に示したとおり。ただ、それに代わる代案が、これまでのところ、特に目につくようなものはなかったように思える。そこで、本論では、ちゃんとした「包摂」というものを示そうとしたわけである。
 97JISの包摂規準は、本来の包摂ではない。それとはまったく別のものとして、ここに提出したものが、もし「当たり前のことじゃないか」と思ってもらえるようであれば、私としてはありがたく思う。


 第3章 文字コードとの関連


 §3−1 異体字と文字コード

 文字コードと異体字の関係では、どうなるか? 
 異体字を文字コードに、どのように割り振るか、ということが問題となる。さまざまな異体字を、それぞれ別々のコードポイントに割り振るか、それとも、同一のコードポイントに割り振るか。(前者は非包摂で、後者は包摂。)

 これも、細かく見ると、次のように類別できる。

   (a) 異体字をそれぞれ別のコードポイントに割り振る
        ・ 字形の差があればすべて別のコードポイントに分類する (まったく包摂しない)
        ・ 常識の範囲内でなるべく細かに分類する (少しは包摂する)

   (b) 異体字を同じコードポイントに割り振る
        ・ 異体字を相互にまったく区別しない (まったく包摂する)
        ・ 異体字タグなどで区別する (包摂されたものを下位の階層で非包摂にする)

 以上のうちのどれを取るべきか、といえば、それは文字コードの方法論だから、工学的なレベルの話になる。それぞれ、長所もあり、短所もある。総合的に評価すれば、高得点を取るものもあれば、低得点を取るものもある。ただし、今ここでは評価・論述しない。

 なお、上に述べたことは、異体字の問題というより、それぞれの文字コードにおける問題である。したがって、それぞれの文字コードにおいて、詳述すべきことである。たとえば、異体字をどのように包摂するか、とか、異体字タグをどのように用いるか、とか。


 §3−2 異体字検索

 文字コードで異体字を別のコードポイントに割り振った場合(つまり包摂しなかった場合)、同類の文字をまとめるのは、文字コードのレベルではできなくなる。
 そこで、その役割を、他の方法に委ねる必要がある。

 特に問題なのは、検索である。いくつかの異体字をまとめて検索する必要が生じることがある。たとえば、「わたなべ」という名前の人名を捜すとき、その文字を正確に覚えていないとしたら、「渡辺」「渡邊」「渡邉」などを、まとめて検索する必要が生じる。
 このような検索方法は、通常、「あいまい検索」と呼ばれる。(「異体字シソーラス検索」という用語も見られる。)
   ※ いわゆる「シソーラス検索」は、「あいまい検索」とは異なる。注意せよ。
     「シソーラス検索」とは、類義語検索をするものだ。たとえば「火事」で
     検索すると「火災」や「大火」などがヒットする。これは意味レベルでの
     同類を捜すもの。一方、あいまい検索は、文字レベルでの同類を捜す。
     あいまい検索では、「バ/ヴァ」の差を無視する、ということも可能。

 さて、あいまい検索は、ごく普通に使われている。たとえば、MS-Word で検索をすると、初期設定では「あいまい検索」が ON になっている。だから、「渡辺」を検索すれば、「渡邊」「渡邉」もヒットする。
 WWW上の検索エンジンでも、このようなあいまい検索を使っているところがあるようだ。

 さて、あいまい検索は、非常に重要である。これなくては、さまざまな異体字をまとめて検索することができない。もちろん、このことはソフトメーカの方でもよくわかっているから、すでにMS-Wordなどで実現されているのであろう。
  ※ あいまい検索が重要だ、ということは、ほら貝の著者もしばしば強調している。
     たとえば、次のページ。
          http://www.horagai.com/www/moji/show.htm
          http://www.horagai.com/www/moji/akumu.htm
          http://www.horagai.com/www/moji/asia1.htm

 ただし、異体字検索があればすべて解決、という具合には行かない。そのことは、次の pdf ファイルに詳しく述べられている。
          http://jcs.aa.tufs.ac.jp/mtoyo/
          http://jcs.aa.tufs.ac.jp/mtoyo/on-JCS/mt-gene.pdf

   ※  「私案」にも記したが、ここには、なかなか役立つ情報が記してある。
      ただ、記述された内容にはちょっと独特の癖ないし個性があるが。

 そこに書いてある要点を、私なりに解釈してまとめれば、次のようになる。
 異体字検索があれば、異体字の検索はできるが、それで包摂の問題が解決したわけではなくて、単に問題を先送りしたにすぎない。つまり、問題が、文字コードのレベルから、異体字検索のレベルに移っただけである。“どの文字とどの文字が包摂されるかされないか”は、異体字検索の検索ソフトしだいとなる。この検索ソフトのレベルで包摂をしっかりと規定しなくてはならなくなる。さらに、大きな問題がある。それぞれの検索ソフトが、別個の基準で包摂をやったら、てんでにバラバラとなって、混乱をもたらす。たとえば、ある異体字検索ソフトでは「辺/邊/邉」および「一/弌/壱」がそれぞれ三つとも同類と見なされるが、別の異体字検索ソフトでは「辺」と「邊/邉」が区別され、「一/弌」と「壱」が区別される。このように、ソフトごとに同一性が別々となり、混乱をもたらす。

 このような混乱は、机上の空論ではない。
 たとえば、私が個人的に調べたところでは、MS-Wordの異体字検索用の辞書は、ATOK(など)の異体字辞書とはあちこちで差がある。全体の1割りぐらいが違っているようだ。
 MS-Wordの異体字検索では、単なる「異体字」だけでなく、もっと広義のあいまい検索をなしている。つまり、異体字とは言い難いような、同義の文字さえも検索辞書に含まれている。
 それでも「アプリの考え方の差」と見なせる場合だけなら、まだいい。もっと問題なのは、明らかにエラーと見られる例までも含まれていることだ。おそらく唯一の例であるようだが、「廠/冤」という例がある。ちなみに、MS-Word(95,97,98)の検索で、「あいまい検索」をONにして、「冤」を検索してみてほしい。どういうわけか「廠」がヒットするはずだ。同様に、「廠」を検索してみてほしい。どういうわけか「冤」がヒットするはずだ。

 なお、このような問題を一般的に解決する方法としては、どうすべきか。
 第一に、異体字辞書をしっかりと作成する(そして共用する)ことが必要となる。
 第二に、さらにその上で、異体字検索のレベルを、ユーザの側で任意に指定できるようにしておくことが必要となる。たとえば、「辺/邊/邉」をたがいに区別するか、「辺」と「邊/邉」に分けるか、あるいは全部一緒くたにまとまるか、……などと。
 この二つのことをまとめていえば、結局、「包摂というものをしっかりと明確化しておくこと」に帰着する。
 要するに、文字コードで異体字を扱うためには、どのような手段を取るにせよ、結局は、先に述べたように、包摂というものを明確化しておくことが必要となるわけだ。

 話が戻ってしまったように思えるかもしれないが、とにかく、異体字の問題を解決することの核心は、包摂というものを明確にすることである。それに尽きる。
 迷宮(ラビリンス)から脱出するためのアリアドネの糸があるとしたら、このことを措いて他にはない。


 第4部 補説

 異体字に関する話の本筋は、以上で終える。
 以下では、本筋とは別に、枝道とか脇道ふうの、細かなことを余談ふうに述べる。


 §4−1 手書き文字

 一部の人(文字コードの初心者)には、次のような意見が見られる。
   「手書き文字には異体字がいっぱいある。みんな違うぞ」

 しかし、手書き文字における個人的な差は、異体字をなさない。異体字というものは、手書きの運筆上の差ではなくて、もっと明確な、文字としての差である。
 また、フォントの差(明朝体/ゴシック体/教科書体 などの差)もまた、異体字をなすとは見なされない。

 こうした点は、文字コードの関係者にとっては自明ではあるが、初心者では、混同している人もいるので、念のため、説明を添えておく。


 §4−2 明の時代の印刷術  (山科氏による)

 明朝体とは、明の時代の印刷物で使われた書体である。
 では、明の時代の印刷術とは、どのようなものであったか? これについては、山科玲児 氏からご教示を得たので、以下に記す。  ( 質問は南堂。回答は山科氏。)
 §4−3 TRONなど (包摂以外)

 「あらゆる文字をすべて文字コードに入れよう」
 という主張がある。TRONもかつてはそのように主張していたはずだ。(最近は知らないが。)

 もちろん、一見してわかるとおり、これは途方もない空論である。たとえば、学校の生徒の書いたあらゆる誤字を文字コードに入れる、などというのは、馬鹿らしいの一語に尽きる。
 より問題なのは、「あらゆる文字を文字コードに入れる」というのは、「その文字コードに入っていない文字の使用を禁じる」ということだ。これは個人の自由な外字利用を統制するわけで、つまりは、コンピュータの自由を統制するわけだ。JCS案の新JISにおける「ユーザ外字利用禁止」と同じく、とほうもない愚挙であろう。

 まあ、そういうひどい例は別としても、もっと基本的なところで、上の主張には問題がある。
 それは、「あらゆる書体の文字を入れることは原理的にできっこない」ということだ。
 明朝体のほか、ゴシック体、行書体など、さまざまな文字がある。さまざまなフォントデザイナーが、さまざまなフォントを作成する。それらの文字をどうするか。もちろん、包摂で処理するしかない。
 ところが、TRONでは、ここのところが明確になっていない。単に「××明朝」という1種類のフォントを用意して、「ここには数万もの漢字が入っています」と言っているだけだ。これはつまり、「特定のフォントしか使わせない」ということに帰結しかねない。
 このことについては、以下に、詳しい論述がある。そちらを参照。
           「テクストは文字の集合」か?


 §4−4 しんにょう

 異体字の例というと、しんにょうがしばしば話題になる。
 かいつまんで言えば、次のようにまとめることができる。

 ・ 現代の明朝体では、常用漢字が1点しんにょう、常用漢字以外が2点しんにょう。
   このことは大辞林に記述がある。(ただし、電子機器用のJISではそうなっていない。)
 ・ 伝統的な筆写文字では、行書体。これは、1点しんにょうでも2点しんにょうでもない、
   独特の形。 (表紙ページにある参考画像を参照のこと。)
 ・ 学研漢和大辞典(書籍版)では、文字の起源の画像があり、ここでは、現代では1点
   しんにょうの文字も、2点しんにょう(明朝体と異なり「ろ」ふうで)となっている。
 ・ 実際には、中国では、古来、(「ろ」ふうで) 1点しんにょうも、2点しんにょうも、どちら
   も用いられてきた。その一例として、手書き文字の教科書たる「千字文」がある。その
   代表的なものは、智永の千字文である。(角川漢和中辞典の巻末付録にあり。) ただ、
   智永の千字文では、多くの文字で、現代の文字とは字形がいくらか異なっている。

  ※ 以上の点について、より詳しくは、下記資料を参照。(前述した資料と同じ。)
         「ことば会議室」のページ  [および 続編


 §4−5 「こけら・かき」問題

 文字コードの分野では有名な話だが、「こけら・かき」問題というのがある。
 「同じ字形であるが、起源をまったく異にする別の文字を、どう扱うべきか」
 という問題である。

 例としては、次のものがある。
  ・ 「柿」という字形で、「こけら/かき」と読む。
  ・ 「芸」という字形で、「げい/うん」と読む。

 これについては、次のように二つの立場があり、メリット・デメリットがある。

 どちらも一長一短である。一方が正しく他方が間違い、というわけではない。
 これも広い意味での異体字の一種ではあるので、異体字処理の方法を援用することもできる。たとえば、「区別して、あいまい検索を使う」とか、「異体字タグを使う」とか。

 このあたりは、文字コードの規格の考え方しだいである。私としては簡単な説明をするだけにとどめておく。
 なお、78JIS と 83JIS では、これらは同じコードポイントに含まれる。(別個のコードポイントが用意されているわけではない。)

  なお、この件については、池田証寿氏の、下記ページを参照。
          古辞書研究とJIS漢字


 §4−6 異体字タグ

 異体字タグというものが unicode で考慮されている。
 これは、文字ごとに、コードの末尾に、別種のコードをつけて、それによって異体字を示すものである(らしい)。
 この方式は、同じコード番号で異体字を区別できる、というメリットもあるが、文字コードの長さが不定長になる、というデメリットもある。
 とはいえ、サロゲートペアを用いる unicode では、もともと不定長だから、たいした違いはないのかもしれない。
 メリットとデメリットをどう評価するか、というのが、判断の分かれ目となる。
 ただ、話は高度に専門的になるので、ここでは、これ以上は述べない。軽く触れておくだけにする。


 §4−7 32ビットコード

 異体字タグを用いず、等長の「4バイト(32bit)で文字を決める」という案がある。
 実は、私自身も似たようなことを考えていたのだが、すでに別の人が提唱していた。斎藤秀紀氏の下記ページである。
        「文化の継承」は4バイト漢字コードで
        情報処理学会誌「情報処理」インタラクティブ・エッセイ

 この案では、文字コードとして用いるというより、文字のデータベースとして用いる、ということのようだ。
  7bit系で使い、3バイト(7×21bit)で84万字。1バイトで、各字ごとに異体字94字を指定可能だということだ。

 なお、「 iso 2022 jp 拡張」という文字コード案もある。こちらも同じく 7bit 系で、内部処理が 32bit であるようだが、こちらは多国語処理なので、言語の区別のためにも bit を消費する。両者の兼用が可能かどうかは不明。
 一応ざっと記しておくにとどめる。


 §4−8  異体字フォント

 表紙ページにある「私案」にも記したことだが、「異体字フォント」というものを利用して異体字を使う、という方法もある。

 これは、フォント切り替え方式によって、異体字を使う方法である。
 フォント切り替え方式は、一般的には、文字の切り替えには適さない。たやすく文字化けが生じるからである。
 しかし、異体字に限っては、フォント切り替えもいくらか意味をもつ。というのは、異体字フォントで異体字を表示した場合、文字化けして、標準的なフォントで読み取られたとしても、まったく別の文字になるわけではなく、標準的な文字になるだけだからである。
 たとえば、異体字フォントで、「邊」の特殊な異体字を用いたとする。これを異体字フォント以外のフォントで読み取っても、「邊」の特殊な異体字が単に「邊」になるだけである。というわけで、さして深刻な問題が生じるわけではない。
 たとえていえば、「渡邉」が「渡邊」になるだけである。たいした問題とはならない。

 ただ、異体字フォントを使うには、文字化け対策のため、原則として、タグ字との併用が必要となる。
 なお、タグ字を用いと、新JISで、そのためのコードポイントがひとつだけ必要となる。したがって、その分、他の文字が一つだけ削られるが、そのかわり、異体字を、最大で1万ほど余計に使えるようになる。
 こうした点について、詳しくは、 「私案」を参照。


 §4−9 人名用の異体字  (戸籍や国民総背番号制で)

 人名用の異体字は、そのほとんどが、誤字である。
 このような誤字として生まれた異体字は、手書きの戸籍ではしばしば用いられるが、電子文書化されるようになると、システムにはそぐわないようになった。

 現時点では、システムに外字を加えて使ったり、すでにあるシステム中の文字で代用したり、といった方法で、とりあえずしのいでいることが多い。
 具体的な例は、柏市の市役所の実態の報告が、下記にある。
      ほら貝  「戸籍に外字の必要な人はどれだけいるか?」
       (少なくとも古い辞書などに典拠があることが求められるのだそうだ。)

 政府などの職権による、通常の字体への書き換えについては、下記に記述がある。
      ことば会議室  目についた言葉 【異体字】

 なお、1999-06 ごろの新聞各紙で報道されたところでは、この国会で、住民基本台帳番号制度という、いわゆる国民総背番号制が国会で法案化されそうだという。
 ま、すぐに実現するか否かはともかくとして、国民総背番号制はいずれは実現することになることは間違いない。(議論されているのは、「実施するか否か」ではなくて、「データの悪用などを防ぐための制限措置をどこまで盛り込むか」という点である。)
 このような国民総背番号制が実施されれば、当然、氏名や住所は番号といっしょに登録されるので、人名は電子化されることとなる。
 その際、さまざまなバリエーションをもつ異体字がどうなるかは、私はよく知らない。たぶん政府の方でこれからいろいろと対処するのだろう。これは実務上のことなので、おそらくは、法案には盛り込まれないものと思われる。

 ただ、国民総背番号制となると、もはや地方自治体の権限でめいめいで処理することは難しくなる。国家的に統一した基準で扱う必要が出てくるだろう。 (それがどうなるのかが判然としないのが問題だが。といっても、役所も判断しかねているのかもしれない。)

 そこで、私としては、次のような方法を、ここに提出する。一つの案として検討してもらうことを期待する。 (押しつけるわけではない。)

 § 付記

 書体の指定について

 欧文文書では、書体を指定することができる。たとえば「イタリック」とか「ボールド」とか指定すると、そのように一律でフォントが切り替えられる。次のように。
        Times New RomanTimes New Roman Italic , Times New Roman Bold
 ここでは、3種類の字体で、フォントはそれぞれ別のものとなっている。そのことは、次の文字で顕著である。
        ff , f
 イタリック体は、単に文字を傾けたのではないことは、明らかであろう。また、拡大すると明らかになるが、ボールド体も、単に太くしたのではなくて、頭のあたりの末端に小さな黒丸が付いているのがわかる。こういうことは、それぞれが別のフォントを使っているからこそ、可能なことである。
 さて、このような「イタリック」「ボールド」という書体の指定は、あらゆる欧文フォントに対して一律に指定できる。すなわち、 century , courier などの書体に対しても、単に「イタリック」「ボールド」と指定するだけで済む。換言すれば、いちいち 「 century italic 」とか「 century bold 」 などと個別に指定する必要はない。

 同様のことが、日本語でできることが好ましい。
 日本語では、「斜体」「太字」などをそれぞれ別個のフォントで用意することは、容量の点から言っても、無理である。だから、現在のように、ソフトウェア的な方法で、元のフォントを加工するしかないだろう。それはそれでよい。
 しかるに、一方、「明朝/ゴシック/細ゴシック/楷書/行書」といったようなことは、先の「イタリック/ボールド」のように簡単に指定できる方が好ましい。たとえば「明朝」と指定すると明朝体になる。「ゴシック」と指定するとゴシック体になる。
 ところが、現在、そのようなことはできない。いちいち個別にフォント名を完璧に指定するしかない。たとえば「MS 明朝」とか「MS ゴシック」などと指定するしかない。単に「明朝」とか「ゴシック」とか指定することはできない。(しても効果がない。)

 そこで、このようなことができるようになることが好ましい。
 ・ パソコンの内部処理の仕方は、ごく当たり前にやればよい。
 ・ HTMLなどでは、書体を指定するためのタグを用意することが好ましい。
  たとえば <gotic> タグだ。これを、それぞれのアプリが適当に解釈する。

 このようなことができると便利なので、一応、ここに提案しておく。

  ※  こうしたことを文字コードにやらせる、というのも一案だが、ちょっと問題が多い。
     やはり、HTMLのタグとかヘッダのようなレベルでやるべきだろう。
     (文字コードのレベルでやると、互換性や包摂などで、いろいろと大変。)






 【 最後に 】


  いたいじ の めいきゅう        in search for the cord of Ariadne  

End.