■2002年1月5日(土) ‥‥WXG、PDF、茶筌


年末から正月にかけて、また普段できないことに手を出した。もっと早く知っていれば‥‥と思うこともあった。

まずはWXGのオプション変換。これまでCtrl+4で変換した分節を括弧で挟むというもの、これが非常に便利で多用していたが、なんと変換中でなくても、アプリケーション中の任意のテキスト範囲を指定してCtrl+4でその範囲を括弧で挟んでくれる。これまで「クリップアウト2000」で同じことをしていたが、WXGの方が安定しているし、学習機能もあるのでグーだ。さらに、(いまさらという感じだが)任意のテキスト範囲(ひらがな)を指定してCtrl+1でその範囲を再変換してくれる。マニュアルには書いてあったようだったが、いまごろ気づいたのだ。厳密な意味での再変換とはいえないかも知れないが。アルファベットの全角・半角を後から直す時にも使える。これもクリップアウト2000でもできるが、学習機能を発揮したい場合にはWXGを利用すればよい(しかし、一部のアプリではうまくいかないことがある)。
 とにかくWXGは他の日本語変換には見られないような「通」の機能があって、手放せない。ローマ字カスタマイズ、柔軟な辞書作成、年号、日付変換、電卓変換、括弧変換‥‥


元旦に親戚のところに行った際に、バリ島の情報(Web)を見たいと言われた。ああ、それなら○○をキーワードにして検索すればいいよ、と返事したいのだが、インターネット接続もままならない、よくわからないという。マウスのクリック程度なら‥‥。なら私のマシンでWebページを一括してダウンロードして、コピーしてあげれば、と思った。Webページの資料をまとめておき、後から整理したりするには、InternetNinjaというソフトを愛用している。それを使えばいいかと思ったが、閲覧する時にInternetNinjaプログラムまでコピーして渡すわけにはいかない。HTMLのリンクをローカルファイルへのリンクに変換してやれば、大丈夫だろう。しかし、何千というファイルのどれを起点として開けばよいか、開いたところでうまくクリックしてローカルファイルをたどることができるかは未知数だ。

そこで思い出したのがAcrobat。これはAcrobatReaderではなくAcrobatのほう。自分でPDFを作るためのソフトだ。最近のバージョンでは、Webページを取り込んで即PDFに変換してくれる機能がある。指定したURL以下のWebページやサイトを一括して取り込んでくれる。もちろん画像ファイルも取込み、最終的にはたった一つのPDFファイルとしてくれる。
実際やったのは、バリ島の観光の際に利用したことのある「BaliHeat」のサイトを一括して取り込んで一つのPDFファイルにして、CD-Rに焼いて渡す、ということだ。やってみたら1600ページくらい、あまりに多いので途中で中断した。出来上がったPDFは20MBを超えるものだった。

しかし、そのPDFを開くと、左側に各Webページのタイトルが「しおり」として一覧表示される。そこをクリックすればよい。もちろん各ページのリンクもクリックするだけで(pdf内の他のページに)ジャンプできる。さらにこれだけのページを通して検索もできるし、必要に応じてマーカーペンでマークしたり、メモを書き込むこともできる。(Acrobat自体高価なので誰でも気軽にという訳にはいかないが‥‥)また、任意の拡大率にすることもできる。これらの利便性はInternetNinjaのたぐいのアプリケーションをはるかに凌ぐものだ。
今度は自分のWebを一括して一つのpdfにして提供することを考えて見よう。

最後に昨日からはまったのは形態素解析ソフト「茶筌」。形態素解析ソフトはどちらかというと頭のいい日本語変換プログラムを作る場合に必須のツール。漢字かな交じりの日本語文章を入れると、品詞に分解して「読み」を出力してくれる。

これはキーボードのレイアウトの検討にも使える。これまで自分でコツコツと解析用のひらがなデータ(わかち書きした平仮名データ)を作ってきたが、これからはこの「茶筌」の助けを借りて、どんどんデータを作っていくことができる。それだけではなく、すこし応用すれば点訳用のひらがなデータも自動生成できるだろう。時間的余裕ができたらトライして見よう。

※点訳用の自動変換はやっぱりすでにいろいろ試みが為されているようだ。(後日気がつきました‥‥)