更新: 2005-10-18
Oxford English Dictionary CD-ROM v3.0x および v3.1 の辞書データをテキスト化するRubyスクリプトです。
現在対応している CD-ROM のバージョンは次のとおりです。他のバージョンではおそらく変換できません。
出力されるのはテキストファイルで、EPWING辞書に変換するには、変換スクリプトなどを作成する必要があります。
OED2txt.rb | スクリプト本体 |
datafile.rb | ライブラリ |
oed2txt-os2.exe | 変換プログラム(OS/2用) |
oed2txt-win.exe | 変換プログラム(Windows用) |
oedhtm.txt | 出力ファイルの簡単な説明 |
oed2txt.html | 使用説明書(このファイル) |
misc/ | (参考になるかもしれないもの) |
misc/oeddata.txt | データ構造などの簡単な説明 |
misc/entry.rb | 項目一覧処理スクリプト |
misc/docdb.rb | 項目処理スクリプト |
misc/ddd.rb | .dddファイル処理スクリプト |
misc/oed2txt.pas | *.exeのVirtual Pascalソース |
やろうと思えば、Rubyなしで、.exeファイルを直接実行することもできます。使い方はoed2txt.pasを参照してください。
WindowsまたはOS/2で実行した場合は数分で処理が済みますが、それ以外のOSの場合は、かなり時間がかかります(Celeron 1.1GHzで約2時間)。これはWindowsまたはOS/2の場合は実行形式ファイル(.exe)を起動して変換しているのに対し、それ以外のOSではスクリプト本体で変換するためです。
ruby -Ks oed2txt.rb <inDir> [<outDir>] <inDir> 辞書ファイル(.htm)のあるディレクトリ <outDir> 出力ディレクトリ (指定なしならカレントディレクトリ)
手順はWindows XP Home Editionの場合です。ほかのOSでは適宜読み替えてください。
ダウンロード後、適当な場所にアーカイブを展開します。ここでは「D:\work」に展開したものとします。
コマンドラインを開きます(スタートメニューから[すべてのプログラム]、[アクセサリ]、[コマンド プロンプト])。
ファイルの出力先が「E:\OED」で、OEDを標準の場所にインストールしているとすると、次のように入力します。ディレクトリ名の入力は、エクスプローラからフォルダをコマンドラインにドロップする方法が簡単です。
ruby -Ks D:\work\oed2txt.rb "C:\Program Files\OED\OED CD v3\Data" E:\OED
E:\OEDに.txtファイルが出力されます。ファイル名は1.htmが1.txtに、2.htmが2.txtのようになります。
CD-ROMから直接変換することもできます。その場合は、.htmファイルがInstallation DiscとData Discにわかれているため、それぞれのCD-ROMに対して上記と同様にスクリプトを実行してください。
スクリプトはOSやRubyのバージョンによっては不具合があるかもしれません。その場合は御連絡ください。できるだけ対処します。
質問・要望などは、EBシリーズ・サポート掲示板にお願いします(hishidaさんのご好意で間借りさせてもらっています)。
スクリプトをこう変えると見やすくなるよ、といったご指摘は大歓迎です。まだRubyは手探りの状態なので、突っ込みどころは多いと思います。ただ、こういった開発系の話題は、EBシリーズ・サポート掲示板にはそぐわないと思いますので、当面はメールがいいかもしれません。
まずなによりもストームさんに感謝します。OEDのテキスト化に取り組むきっかけをつくってくれたのは、EBシリーズ・サポート掲示板でのストームさんの次の投稿でした。
記事No : 1560 [関連記事] 投稿日 : 2004/03/06(Sat) 02:39 投稿者 : ストーム E-Mail : 題 名 : OED(Oxford English Dictionary)
データの解析にあたっても、ストームさんが苦労して解析された結果が非常に参考になりました。ただ暗号の解読は一筋縄ではいかず、おかげでスクリプトの完成までに1年以上もかかってしまいましたが。
OED v3.01への対応にあたってはohtaさんのご協力をいただきました。ありがとうございました。
v1.00 2005-08-21 by nomad
公開
v1.10 2005-10-18 by nomad
CD-ROM v3.01、v3.1 に対応
作成: 2005-08-21