あまつぶ

10.12 【「あ」で検索】

 前回cgiの話を書いてから、さらにいろいろいじってみた。若干動作が重いことが気になっていたのだが、掲示板もアクセス解析も途中でログが消えてしまうという問題が発生し、結局別のサーバへ移動。このあたりのことについては実際に設置してみないとわからないからなんとも難しいところだな。

 前回も書いたように、ダウンロード数をカウントするcgiも設置してみた。ダウンロードのリンクをcgiに変更し、そのパラメータによってダウンロードさせるファイルを選ぶような仕組み。このcgiはThe ROOMからいただいた。
 かなり自己満足なcgiだけど、Vectorに置いてもらっているファイル以外もカウントできるから、また新たな発見があるかもしれない。ダウンロード数が多いものは更新しなきゃなぁという気になるし(笑)。
 ダウンロード数を見ると、IconPartyだけで全体の半分以上を占めている。なんかすごい。カウントを始めてからしばらくはCarbon版の方が多くダウンロードされていたけど、今はClassic版の方が多いな。Xへの移行はまだまだあまり進んでないってことかしら。PhutもClassic版の方が多いし。FireworksのWin版はもう少しダウンロードがあるんじゃないかと思っていたけど、うちにWin用のソフト目的で来る人ってほとんどいないだろうし、こんなもんなのかな(笑)。

 前回、アクセス解析cgiを設置したと書いたが、そのリンク元を見ていたら、妙なログを発見した。BIGLOBEの検索で、なぜか「あ」を検索した結果から飛んで来ている人がいたのだ。
 「あ」で検索? どういう状況でそんな検索方法を使うのだろう……。試しに結果を表示させてみると、なぜか7位にあまつぶが。500万件のヒットの中で7位ってのはすごいことなんだろうか。と、よく見ると、検索結果のところにGoogleのロゴ。そうか、BIGLOBEの検索ってGoogleのエンジンを使っているのね。ふむふむ。じゃあ、Googleで検索してみるとどうなるかっていうと、同じように7番めに表示されてきた。こちらは2130万件中の7番め。
 Googleの検索では、(完璧とはあまり思えないが)日本語の形態素解析がされている。例えば、「あまつぶ」で検索した場合、うちのキャッシュを見ればわかるように「あ」と「まつぶ」に分解されて検索されている。だから、「あ」で検索するとヒットするのだ。その証拠に、「あま」ではヒットしないし、「まつぶ」ならばヒットする。おそらく、「あ」という言葉(文字ではなく)でヒットするページというのはあまり多くはないだろうから、それでたまたま上位に出てきたということだろう。最初見たときはちょっと驚いたが。
 この単語区切りをうまく利用すればひらがな1文字検索でヒットするページというのが作れるかもしれない(笑)。「『あ』で検索したら出ます」とかいうのはおもしろいと思うけど、どうだろう。

 それはそうと、ひらがな1文字での検索ってのは一般的な検索方法なのだろうか。ログを見ていると、「あ」での検索からとんできているケースは他にもあった。試しに他の文字でも検索を試みてみると、どの文字も多くのページがヒットする。しかも、ジャンルがまるでばらばらのページばかり。なにか情報を探す場合にはまったく役に立ちそうにないが、暇つぶしにはもってこいかもしれない。これまで見たことのないようなジャンルのページもたくさん出てくるし、「なぜこの文字でこのページがひっとするんだ?」と考えてみるのもおもしろい。また、文字によってヒットするページ数に開きがあったりするし(ひらがな単独で使われることが多い1文字の助詞となる文字はたくさんヒットする)、それを調べてみるのもいいかもしれない。
 ざっとGoogleでひらがな1文字検索を試してみると、最もヒット数が多いのは「の」で、5億4300万件。次いで「に」「を」「は」「が」「と」「で」「な」「も」「か」「し」……と続く(ここまで1億件以上のヒット)。数が少ない方は、「ゎ」が20万2千件で、以下、「づ」「ぽ」「ざ」「ぷ」「ぢ」「ぴ」という感じ(ここまで、100万件未満のヒット)。上で書いた、ひらがな1文字でヒットするページを目指すなら、このあたりの文字を狙うのが効率いいかもしれない(笑)。(ちなみに、件数は「ウェブ全体」を選んだ場合)

 今回はこんなところ。次回の予定は、未定。

October 5, 2002 ↑ 2002 index → October 20, 2002