みんなやってるビッグデータと機械学習

 やあ、みんな、こんにちわ。
 世間ではビッグデータ、機械学習なんかいろいろ言われているけど、たいていの人がビッグデータの成果を既に使っていて、そして自分たちがその学習に協力しているのを知っているかな?

 そう、マイクロソフトのIME、日本ではカナ漢字変換システムと言われている奴だ。
 これはもともとAIソフトのWXIIのOEMだったんだけど、マイクロソフトはAIから離れてビッグデータによる機械学習に切り替えたんだ。
 はじめは開発費を抑えるため、ってのが狙いだったみたい。
 マイクロソフトはオフショア開発、ようするに人件費が安い海外でカナ漢字変換システムを作ることを考えたんだよ。もちろんプログラマーは日本語が分からない。なので、日本語の文章を片っ端からコンピュータに読ませて、自然言語処理で分解して、文章の中でなんて読み方はどういう漢字に変換するべきかを学習させたんだ。この方法にはもう一つメリットがある。日本語以外のIMEも同じ手法で開発できるってことだね。
 当初は「入れた手のお茶」とか「本日回転」とか変換するって揶揄されていたけど(いま変換したら「本日回転」のままだったよ)、コンピュータの性能向上はすさまじい。どんどん変換精度が上がってきたんだ。かつ皆が協力して誤変換データをせっせとマイクロソフトに送信し続けた結果、機械学習の精度も上がったみたいだ。今ならなんてお馬鹿な変換を、って思うこと、あまりなくなっただろう。もちろん他のカナ漢字変換でも、似たようなことをやっているよ。携帯電話でIMEをダウンロードすると、入力したキーを送信するけどいい?って尋ねてくるだろ。あれがカナ漢字変換の精度向上に役立っているんだよ。

 なんてことはない。みんな、ビッグデータで機械学習の世界をしらずしらずのうちに体験してきたってことさ。それも10年以上前からね。ジャストシステムのATOKも似たような感じでやっているんじゃないかな。もっともこちらは「教師あり学習」みたいだ。
 マイクロソフトは日本語のわからない人が作っているから「教師なし学習」だよね。ただしフィードバックを含めたビッグデータ量は多分マイクロソフトの方が多い。だからどれくらいで「教師なし学習」が「教師あり学習」を抜くか、興味があるね。ひょっとして抜けないのかもしれないけど、でもこれを見ると機械が人間より賢くなるという臨界点が実際に起りうるのか、それが分かるような気がするね。SFモドキの予言をする人は、まずはATOKをMS−IMEがいつ超えるか、を予言した方がいいんじゃないかな。
 Windows for MS-DOSの時代はOS付属のIMEではなくお金を出してそれ以外のIMEを買うのが普通(?)だったけど、今や特にATOK買う人、ぐっと少なくなってきたよね。SF的に面白くなってきたと思わないかい?

コンピュータネタ、目次
ホーム