ATOK 2007 VS MS Office IME 2007

ATOKの方が賢いとか言われてるけど、それってホント?

めんどくさいので以下ATOK 2007はATOK、MS Office IME 2007はIMEと表記。

文節区切り間違い

昔から、一発で正解を出す確率というのは両者ともあまり変わらないけれども、ATOKの方は文節区切り間違いが多くて単語間違いは少ない、IMEの方は文節区切り間違いは少ないが単語間違いが多い、という風に言われていたが、それは2007になっても同じようである。

ただ、語彙数はATOKの方がかなり多いらしい。(参考

ATOKの方が文節区切り間違いが多いというのは、変換アルゴリズムの違いに起因していると考えられる。

両者の方式はそれぞれATOKの方が最長文節一致法、IMEの方はコスト最小法がベースである。

最長文節一致法というのは、文節(名詞・動詞等+付属語)の長さが最も長くなる文節区切りが正解となるもので、コスト最小法というのは単語同士の連結しやすさにコストをつけておいて、その合計が最小になるものが正解となるようにするものである。

少し古い文献などには、コスト最小法は一文が長くなるほど指数的に計算量が増えるために変換速度が遅くなってしまうなどと書かれていることがあるが、最近ではViterbiアルゴリズムなどが使われるので、最長文節一致法に比べて極端に遅くなるということはない。おそらくIMEがトロいのは別の問題である(後述)。

最長文節一致法

原理的には、最長文節一致法の方がえっ?と驚くような文節切り間違いをしやすい。

たとえば、以下の文はATOKの誤変換例である。

「胃痛かが追うか迷うところでしたが」

「鶏が咲き方孫が先か」

これは、前の方の分節が長くなるような文を正解としたためであろう。「いつ/うかがおうか」よりも「いつうかが/おうか」の方が、「さきか/たまごが」よりも「さきかた/まごが」の方が、どちらも前の方の分節が長い。

「賢い日本語」が聞いてあきれるくらい極めて日本語として不自然な表現が生成されてしまっているが、これは、ATOKが分節同士の接続可能性についてはチェックしていないためであると思われる。

名詞・動詞等と付属語の接続は、文節の長さを判断するために接続テーブルを持たざるを得ないので正確にできるのだが。

分節同士の接続可能性をチェックすれば誤変換が減るはずではあるが、やるとしたら、文節をカテゴリ分けして接続可能性のコストを合計して決めて……それ何てコスト最小法?

結局、文節区切りを正しくするためにはコスト最小法的なアプローチになるのかもしれない。

いつまでATOKは時代遅れのロジックに縛られ続けるのだろうか。

コスト最小法

IMEの方のコスト最小法というのは、まあ、いまどきの形態素解析機の主流である。

結局、コスト最小法がうまくいくためには、いかにして最適なコストを算出しておくかがカギになるわけだが、従来人手で頑張ってきたのが埒が明かなくなって、統計的な方法を導入するようになったというコの業界の経緯がある。

IME2007が採用したTrigram/SLMというのは、要するにコスト計算に使う数値の算出方法のことで、連続した3単語の出現頻度を新聞や小説から求めてコストを決定するわけである。(具体的な方法は公開されていない)

前のIMEの品詞Bigramというのは、品詞の2連続(隣同士)でコストを決めるということ。

IME2007は単語Trigramにしたと公表しているが、名詞や動詞などの語彙範疇まで一個一個別のものとして扱う単語Trigramは現実問題として不可能なので、語彙範疇についてはなんらかのカテゴリー分けがなされているはずである。実際、IMEは「戦犯お問い合わせのありました」という変換をするが、完全な単語Trigramであれば「戦犯」と「お問い合わせ」は接続しない。たぶん。

品詞を見るのも単語を見るのも大した違いはなさそうだと感じられるかもしれないが、実際は大違いである。特に機能範疇。それは結局日本語の品詞体系なんてどの文法体系もデタラメだからである。橋本文法にしろなんにしろ、どれもこれも意味合いも接続方法も違う単語が同じ品詞になっていたりするのだ。そんなものが使えるわけがない。単語ベースのコスト計算を選んだのは大正解なのである。

単語選択間違い

候補順

IMEの「せいかい」の第一候補は「政界」で、「正解」ではない。

IMEの変換候補順は、新聞や小説のコーパス中での登場頻度によって決まっている。文の中で同時に出現しやすいものや、かかり受けしやすいものは、ある程度例外的に優先されるようになっているが、それも基本は新聞や小説の中に出てくるものである。(たぶん)

IMEのヘルプには、

Microsoft IME の辞書作成に際しては、以下の方々のご協力をいただきました (順不同) 。
・稲永紘之先生 (元九州大学助教授)
・読売新聞東京本社
・青空文庫
・(株)まぐまぐ
・(株)アボック社および金井弘夫博士
・(株)日中韓辭典研究所

と書かれているので、おそらく読売新聞と著作権の切れた小説が主に頻度計算に使われたのだろう。(まぐまぐは何のデータだ?)

実際、IMEが誤変換して出てくる単語は、いかにも新聞でよく使われそうだったり、妙に古臭かったりする単語ばかりである。これが一般ユーザーが候補の順番がおかしいと声高に叫びたくなったりする原因だろう。

つまり、「つこてるコーパスがちゃう!」と。

しかし、そういうつもりで使っていると、あー確かにこっちの方が多そー、という気がしてくる。それと、そのくらいなら文節切り間違いに比べて脳に対する負荷は小さいかもしれない。

巷で言われている「インストール直後は何も覚えていないAIシステムのような状態なのではないかと。」という説明は、おそらく間違い。

また、IMEの「こども」の第一候補は「子供」で、「子ども」ではない。PC(ポリティカリーコレクトネス)的に望ましくない表記が平気でトップに来るあたり、日本語に対する敏感さが足りないと感じざるを得ない。

やはり単語の選択に関しては、監修委員会が目を光らせている(いた?)ATOKに一日の長がある。

学習

昔はATOK健忘症などと揶揄されていたこともあるが、今ではATOKは変換候補のトップにはユーザーが前に選択したものがほぼ確実にくるようになっている。

これに対して、IMEはさっぱり学習しないと言われることが多い。

IMEは、学習する際に前の単語との接続まで覚ているので、単体では前に確定した単語が出てこないことがかなりある。というか、どういう条件だと学習されて、学習された単語が優先されるのか、いまひとつよくわからない。実際、「和寛」を確定しても、「和弘」や「一洋」の方が上にくることがかなりある。フルネームで「藤田和寛」と変換する場合には一発で出るのだが。自分の名前が候補の一番にならないのはかなり不愉快なものである。

結局、IMEはスマートになろうとしたがためにユーザーの期待を裏切ってしまっているのだ。愚直で単純なATOKは、賢くないがためにユーザーの期待通りの挙動を見せる。ATOKに対するユーザーからの信頼感というのは、このようなある種の単純さに由来している部分が多いのかもしれない。

それと、初期のIME2007には学習量が多くなると辞書が壊れるバグがあったらしく、そのせいで変換できなくなることがかなりあったらしい。現在ではアップデートでパッチを当てれば正常につかえるようだ。

変換速度

ATOKは速い。これはもう、メモリやHDDが貧相だったころに主流だった古のロジックを枯れ果てるまでチューニングしているのであろう。

これに対してIMEは遅い。

まず、IMEはデフォルトでOutlookの住所録を参照する。余計なお世話である。インストールしたらまずプロパティでOutlook関連は削除すべきだ。

それと、IMEは変換キーを押してからHDDに大量にアクセスする。HDDの辞書がメモリにキャッシュされるまではかなりいらつく。ATOKが一文字入力するごとに辞書をひいたり、はじめからメモリに辞書をおくオプションがあるのとは大違いである。

……と思って辞書をフラッシュメモリに入れてみたがあまり速くならなかった。参ったな。

結論

賢さだけを比べるのならば、圧倒的にIMEの方がATOKよりも上である。何しろ、日本語として成り立たない文章を出しやすいのはATOKの方なのだ。しかし、その賢さを相殺してしまうほど、一般ユーザーにとってIMEは挙動不審なのである。

というわけで、解釈不能な日本語を見ることが少なくて集中力をそがれにくいのがIME、どういう風に動くか理解しやすくて短い文を書いて電源を切ることが多い人に向いているのがATOK。

古臭くて泥臭いジャストシステムと余計なおせっかいが多くていけ好かないマイクロソフトという企業イメージそのまんまのような。

なんだか、ジャストシステムもマイクロソフトも人材が足りてないんじゃないかなあ、という気がした。大丈夫なのかいな。



(c) 2007 藤田和寛
戻る