ひなこのーと3

 英語の出来ない中高生の友、第二外国語で辞書引きの手間が大変な大学生の救世主、「ひなこのーと」がさらに強力にバージョンアップしました。
 専用辞書に各単語の活用形をも見出しとしておくことを必要としていたのでありますが、ものすごく不恰好、なのと、英語って同じ形で品詞が違う、が多すぎ!いちいち選択してられないや!だったので、最近テキストマイニングにも手を出している私としては「英語で形態素分析」と連携すれば、品詞はプログラムに判断してもらえるし、多分原形だってわかるだろ。
 調べまくると
TreeTaggerというのが使えそう。残念ながらどうやってCallするかのドキュメントが見つからないのだが(Pythonから使うやり方、ばっかり)、Delphiで書かれたGUIで使うプログラムは見つかった。ホントは自力で呼び出したかったのだが、まあ、いいか。
 これで英文を読み込ませると、文中の各語に品詞と原形をつけて出力してくれる。こいつを入力に指定してやると、本文が1単語=1セル。上の行に語の原形(変化してなければフォント色が白になるので見えない)、下に品詞が並ぶ、ようにした。
 もちろん海外製ソフトなので品詞もあちらの略号で戻ってくる。単純に読み替えテーブルを作ってもよいのだが一筋縄ではいかない。というか一筋縄でとらえては勿体ない。

 品詞の分類ルールはTreeTagger本体で持つのではなくパラメータファイルに任せる仕組みになっている。こういう設計になっているおかげでパラメータファイルを切り替えると、英語の形態素分析もフランス語の形態素分析もできるわけである。が、あちらモノのソフトだから【自動】とか【形容詞】とか出力してくれるわけではない。こちらとしては、アルクの辞書の品詞分類と一対一対応してくれるとありがたいのだが、そうは問屋が卸さない。でもこの分類法がとても興味深かったのだ。
 品詞記号の日本語訳を作ってくれている人がいたのでPENNタグセットを採用したのだが、
・存在の"There"が【副】でなくて"EX"(existential there)と別切り出しになっている。
・形容詞の比較級、最上級も単なる形容詞とは別のタグになります。
アルクの「英辞郎」辞書では、これでもかとコマカク分類された【人名】【国名】【作品名】【商標】【TV番組】は"NP"(proper noun,singular)つまり「固有名詞の単数形」とひとくくりです。
・"wh限定詞"と"wh代名詞"は別ですよ。
・"to"は前置詞と不定詞句に分かれていたのはすごく納得。そう分類できないと翻訳ソフトに渡せないよね。
・動詞を自動詞と他動詞に分けないというのも、むしろその方が分かりやすいかも。

 となると"VVP"(動詞の三人称単数形現在)を単に【動】と変換するのは勿体ない。かといって長ったらしい品詞名にするのはスペース的に難しいし、そもそもアルクの辞書では【自動】【他動】と分かれている、ので、VVPは「【動】s」とする。辞書側の【自動】【他動】はそれぞれ「自【動】」「他【動】」と持たせることで、【】内が一致するものを辞書で検索し、出力は「自【動】s」とする折衷案を考え出した。

 これまで作業負荷の大きかった品詞を合わせる必要が大幅に減りはしたが、再検索機能もいらないというわけではないし、あちこち修正して、一週間程度でようやく安定。辞書にも手を入れないといけないしね。でも作業時間が短縮されたのはもちろん、分かりやすさも大幅に向上したし、いいんでないかい。代償として辞書が「英辞郎の辞書テキストから単純コンバートとはいかず、自分で細かく調整する必要ができた」のだが(やってできないわけではないが、あまりにも"it depends."なので汎用化する気力が出てこない。)
 あと、第二外国語の品詞分類、TreeTaggerのパラメータファイルを翻訳するの、どうしましょう。

 肝心のユーザーのやる気が皆無、という問題点は未解決のままなのだが。

フリーソフト開発秘話、目次
ホーム