最終更新日: 2004/12/29
ランダムハウス英語辞典Toolkitは、 小学館ランダムハウス英語辞典 (V1.0〜V1.5)の辞書データをHTMLファイルに変換するツールです。 JIS X4081書籍生成ツールであるEBStudioと組み合わせることによって、 ランダムハウス英語辞典をEPWING辞書に変換できます。
・ランダムハウス英語辞典Toolkit pre-release4b
[ダウンロード]
・現在のソースコード
[見る]
開発中バージョン pre-release4b 2004/12/29版
※これが開発中バージョンの最終版となる予定(^^;です。 しばらく様子をみて問題がなければV1.0として公開します。
配布パッケージには以下のファイルが含まれています。
Makefile Borland C++ 5.5用Makefile srd2html.c Toolkit本体プログラムソース srd2html.exe Toolkit本体プログラム srd2html.ini Toolkit設定ファイル srdgaiji.tbl 外字データファイル srdfix.c 検索見出し修正プログラムソース srdfix.exe 検索見出し修正プログラム readme.txt 説明書 |
このToolkitで生成したHTMLファイルをEPWING辞書に変換するには EBStudio 1.65以降が必要です。 また、前方一致以外の検索を可能にするには EBstudioのシェアウェア登録が必要になります。
・EBStudio(EBシリーズ・サポートページ) [リンク]
オプションによって異なりますが、変換によって作られる EPWING辞書のサイズはおおむね以下のとおりです。
図版あり/音声なし/複合検索なし 230MB 図版あり/音声なし/複合検索あり 440MB 図版あり/音声あり/複合検索なし 1.8GB (Windows版/Ra2Wavで変換) 図版あり/音声あり/複合検索あり 2.0GB (Windows版/Ra2Wavで変換) 図版あり/音声あり/複合検索あり 1.3GB (Macintosh版/iTunesで変換)
このToolkitとEBStudioを使ってWindows版ランダムハウス英語辞典を EPWINGに変換する手順を示します。Macintosh版については 「Macintosh版ランダムハウスを変換するには」 を先にお読みください。
適当なディレクトリにToolkitのパッケージを展開し、 環境に合わせて設定ファイルsrd2html.iniを書き換えます。 設定ファイルには以下の項目があるので、 いずれかの行頭の"#"を削除して選択肢を有効にするか、 あるいは新たに値を設定してください。
BASEPATH EBStudioの基準パス(このToolkitの出力先) OUTPATH EBStudioの出力先パス(EPWING辞書の出力先) DICPATH ランダムハウス英語辞典の辞書パス DATAPATH ランダムハウス英語辞典のデータパス SORTCMD Toolkitが使用するソートコマンドのパス(通常は設定不要) MACINTOSH Macintosh版ランダムハウス英語辞典を変換する FIGURE 図版データを使用する JPEG 画像ファイルをJPEGに変換して使用する(FIGURE=1が必要) SOUND 音声データを使用する GENSOUND 音声ファイルを生成する(SOUND=1が必要) COMPLEX 成句/用例の複合検索を有効にする QUICKJUMP 項目内ジャンプを有効にする QJITEMS 項目内要素(品詞/成句)がこの数以上あるときジャンプを生成する QJLINES 項目行数がこの数以上あるときジャンプを生成する QUICKRET 項目内ジャンプからのリターンを有効にする(QUICKJUMP=1のとき) ITALIC イタリック表示をEPWINGの斜体で表示する PRONSYM 発音リンクに用いる外字あるいは文字列表記(SOUND=1のとき) JUMPSYM 間接ジャンプに用いる外字あるいは文字列表記(QUICKJUMP=4のとき) ARROWSYM 項目内ジャンプに用いる矢印シンボル(QUICKJUMP>0のとき) RETSYM リターンリンクに用いる外字あるいは文字列表記(QUICKRET>0のとき) |
BASEPATHはこのToolkitが本文/図版/音声のデータファイルを 出力するディレクトリです。 OUTPATHはEBStudioがBASEPATH以下のファイルを読んで EPWING辞書に変換するときの変換先ディレクトリです。 作業には1〜7GB程度の領域が必要になるので、 十分な空きのあるディスクを指定してください。
DICPATHにはランダムハウス英語辞典の辞書ファイル(main.txt, en.dat, tr.dat, Readme.txt)があるディレクトリを指定してください。 DATAPATHにはデータファイル(img.dat, srdra.bnd/srdq3.bnd) のあるディレクトリを指定してください。 またSORTCMDにはWindowsに用意されているソートコマンド (sort.exe)の絶対パスを指定してください。 Windowsが標準のフォルダにインストールされている場合は指定不要です。
MACINTOSHにはWindows版、 Macintosh版いずれのランダムハウス英語辞典を変換するかを指定します。 Windows版なら0、Macintosh版なら1を指定してください。 この設定によって参照される音声データファイル名(srdra.bndまたはsrdq3.bnd) および生成される画像/音声データファイルの拡張子(.bmp/.raまたは.pict/.aifc) が変わります。
FIGUREを1にするとBMP形式の画像ファイル(拡張子.bmp)を参照する HTMLファイルが生成され、同時にBASEPATHのサブディレクトリfigの下に BMP形式(Windows版)またはPICT形式(Macintosh版)の画像ファイルが 約2300個生成されます。 変換されたEPWING辞書でBMP形式の画像データを使用する場合、JPEGに0を設定し、 Macintosh版では出力されたPICT画像ファイルを拡張子.bmpの BMP画像ファイルに変換して元の画像ファイルと同じディレクトリに置いてください。 Windows版では出力されたBMP画像ファイルがそのまま利用できます。 変換されたEPWING辞書でJPEG形式の画像データを使用する場合はJPEGに1を設定し、 出力されたBMPまたはPICT画像ファイルを拡張子.jpgの JPEG画像ファイルに変換して元の画像ファイルと同じディレクトリに置いてください。 画像ファイルの一括変換にはたとえばフリーソフトのViXが使えます。 詳細については 「ViXで画像ファイルを一括変換する」を参照してください。
・ViX [リンク]
SOUNDを1にするとWAV形式の音声ファイルを参照するHTMLファイルが生成されます。 GENSOUNDを1にすると、サブディレクトリsndの下にRealAudio形式(Windows版、 拡張子.ra)またはQDMC(Q Design Music Codec)形式(Macintosh版、 拡張子.aifc)の音声ファイルが、 100個程度のサブディレクトリに分かれて約10万個生成されます。 変換されたEPWING辞書で音声データを使用するときは、 それぞれのRealAudio形式またはQDMC形式の音声ファイルを拡張子.wav の非圧縮WAV音声ファイルに変換し、 元のファイルと同じディレクトリに置く必要があります。 詳細については以下の 「音声データの変換について」を参照してください。
QUICKJUMPを1以上にすると、項目に含まれる品詞/成句などの要素が QJITEMS以上かつ項目行数がQJLINES以上のとき、 項目先頭から品詞などの各要素にジャンプするための 項目内ジャンプリンクが生成されます。 QUICKRETを1にすると項目内ジャンプ先から項目先頭に戻るための リターンリンクが生成されます。 なお、項目内ジャンプの表示方法はQUICKJUMPの値により以下のようになります。
1: 見出し行に表示する 2: 見出し行の次行に1行にまとめて表示する(新グローバル英和辞典方式) 3: 見出し行の次行から複数行に表示する(ジーニアス英和辞典方式) 4: アイコンから専用ページを経由して間接ジャンプする(研究社方式) |
設定ファイルsrd2html.iniの初期値は次のようになっています。
BASEPATH = c:\srdtmp\ OUTPATH = c:\srd\ DICPATH = c:\Program Files\小学館\ランダムハウス英語辞典\ DATAPATH = d:\Data\ SORTCMD = (指定なし) MACINTOSH = 0 (Windows版ランダムハウス英語辞典を変換する) FIGURE = 1 (図版データを使用する) JPEG = 0 (画像ファイルはBMP形式) SOUND = 0 (音声データを使用しない) GENSOUND = 0 (音声ファイルを生成しない) COMPLEX = 1 (複合検索/条件/クロス条件検索を有効にする) QUICKJUMP = 1 (項目内ジャンプを有効にし、見出し行に表示する) QJITEMS = 3 (項目内要素が3要素以上あるときジャンプを生成する) QJLINES = 30 (項目行数が30行以上あるときジャンプを生成する) QUICKRET = 1 (項目内ジャンプからのリターンを有効にする) ITALIC = 0 (イタリックは立体で表示する) PRONSYM = SPEAKER (発音リンクはスピーカーアイコン) JUMPSYM = BIPOD (間接ジャンプは二股アイコン) ARROWSYM = JUMP (項目内ジャンプの矢印は右向きの矢じりシンボル) RETSYM = RETURN (リターンリンクは上向き白抜き矢印アイコン) |
エクスプローラからsrd2html.exeをダブルクリックして実行します。 MS-DOSプロンプトあるいはコマンドプロンプトの画面が開き、 実行中のメッセージが表示されます。 変換には数分〜十数分程度かかります。 終了すると画面が閉じますが、実行中のメッセージは srd2html.exeと同じディレクトリのsrd2html.logに残ります。 実行が正常に進んだ場合、表示されるメッセージは次のようになります。
作業ディレクトリ C:\WORK に移動しました 変換設定は以下のとおりです BASEPATH = c:\srdtmp\ OUTPATH = c:\srd\ DICPATH = c:\Program Files\小学館\ランダムハウス英語辞典\ DATAPATH = d:\Data\ SORTCMD = MACINTOSH = 0 FIGURE = 1 JPEG = 0 SOUND = 1 GENSOUND = 0 COMPLEX = 1 QUICKJUMP = 1 QJITEMS = 3 QJLINES = 30 ITALIC = 0 PRONSYM = SPEAKER JUMPSYM = BIPOD ARROWSYM = JUMP RETSYM = RETURN 外字データを変換しています... 終了しました 項目内ジャンプデータを生成しています... 終了しました ハイパーリンクデータを生成しています... 終了しました ハイパーリンクデータをソートしています... 終了しました 本文データをHTMLに変換しています... 終了しました 著作権表示ファイルを生成しています... 終了しました 複合検索定義ファイルを生成しています... 終了しました EBSファイルを生成しています... 終了しました 変換処理が終了しました 経過時間: 1:43 ※ c:\srdtmp\srd.ebs を入力としてEBStudioを実行してください |
ログファイルsrd2html.logには上記のメッセージ以外にも いくつかの情報が書き出されます。 以下のメッセージはランダムハウス英語辞典の 本文データに不備があるために生成されます。 いくつかの項目で文字化けが起きたり別項目参照ができなくなりますが、 それを除けば変換は正しく行われています。
解決不能なハイパーリンク「…」があります(…) 飛び先不明のハイパーリンク「…」があります(…) 飛び先不明のため項目末尾にハイパーリンクのアンカーを生成しました 本文に誤りがあります
変換が終了すると、設定ファイルのBASEPATHで指定したディレクトリに 次のファイルが作られます。
srd.html 本文データファイル srdgmap.xml 外字マップファイル srdgfont.xml 外字フォントファイル srdmenu1.html 図版メニューファイル(FIGURE=1のとき) srdmenu2.html 作品名メニューファイル srdmenu3.html 類語解説メニューファイル srdmenu4.html 語法解説メニューファイル srdmenu5.html 活用/発音/地域的異形解説メニューファイル srdcopy.html 著作権データファイル srdcmpl.html 複合検索定義ファイル(COMPLEX=1のとき) srd.ebs EBStudio定義ファイル fig/ 画像ファイル(FIGURE=1のとき) snd/ 音声ファイル(SOUND=1かつGENSOUND=1のとき) pl_???.xml iTunesプレイリスト(MACINTOSH=SOUND=GENSOUND=1のとき) |
必要であれば、ここで画像ファイルのBMP形式またはJPEG形式への変換および 音声ファイルのWAV形式への変換を行ってください。
EBStudioを起動し、[ファイル]→[開く...]で 先に生成されたsrd.ebsをオープンします。 次に[ファイル]→[実行]で変換を実行します。 変換には十分〜数十分かかります。 処理が正常に進んだ場合、表示されるメッセージ (「実行記録」窓に表示されるもの)は次のようになります。
開始時刻:2004/12/19 16:38:26 [ランダムハウス英語辞典] 著作権情報…done 本文… (1)c:\srdtmp\srd.html (2)c:\srdtmp\srdmenu1.html (3)c:\srdtmp\srdmenu2.html (4)c:\srdtmp\srdmenu3.html (5)c:\srdtmp\srdmenu4.html (6)c:\srdtmp\srdmenu5.html done カラー図版…done 図版総数=(2332)個 PCM音声…done 音声総数=(106468)個 メニュー…(125) 前方一致表記インデックス…(1118241)個 後方一致表記インデックス…(1117919)個 クロス条件検索インデックス…(1405915)個 条件検索インデックス…(78098)個 項目別条件検索インデックス…(1484013)個 複合検索インデックス…(0)個 外字(8x16)…(694)個 done 外字(16x16)…(201)個 done アンカー総数…(315491)個 リンク総数…(141253)個 c:\srd\SRD\DATA\HONMON ( 2146615296 bytes ) 終了時刻:2004/12/19 17:04:22 ------------------------- カタログを作成しました。 処理を完了しました。 |
変換が正常に終了すると、設定ファイルの OUTPATHで指定したディレクトリに次のファイルが作られます。
catalogs EPWINGカタログ srd/data/honmon ランダムハウス英語辞典 srd/gaiji/gai16h00 8×16ドット外字ファイル srd/gaiji/gai16f00 16×16ドット外字ファイル |
このToolkitで生成したHTMLファイルをEBStudioでEPWING辞書に変換すると、 検索見出しに不要なタグが含まれてしまい、検索ソフトによっては 複合検索などの見出しが正常に表示されない場合があります。 パッケージに含まれるsrdfix.exeを用いて、 この不要なタグを無害なタグに変換します。
エクスプローラからsrdfix.exeをダブルクリックして実行します。 MS-DOSプロンプトあるいはコマンドプロンプトの画面が開き、 実行中のメッセージが表示されます。変換には1分ほどかかります。 終了すると画面が閉じますが、実行中のメッセージはsrd2html.exeと同様に srd2html.logに残ります。 実行が正常に進んだ場合、表示されるメッセージは次のようになります。
作業ディレクトリ C:\WORK に移動しました 識別子 05 の書籍構成要素を修正しています... 終了しました 識別子 07 の書籍構成要素を修正しています... 終了しました 識別子 0A の書籍構成要素を修正しています... 終了しました 識別子 03 の書籍構成要素を修正しています... 終了しました 識別子 0D の書籍構成要素を修正しています... 終了しました 検索見出しの修正が終了しました 経過時間: 0:40 |
以上で作業は終了です。生成された辞書をDDwinやEBWinなど、 お使いのEPWINGビューアで認識させれば辞書として使えるようになります。
ランダムハウス英語辞典には約10万語の発音データが含まれています。 このデータはWindows版はRealAudio形式(拡張子.ra)、 Macintosh版はQDMC形式(拡張子.aifc)なので、 EPWING辞書で使うにはあらかじめ非圧縮WAV形式に変換する必要があります。
設定ファイルでSOUNDとGENSOUNDを1にしてToolkitを実行すると、 サイズが1.5KB〜数KBの音声ファイルが約10万個生成されます。 Windows XPや2000で使われるNTFSファイルシステムでは 標準のクラスタサイズが4KBですが、Windows 98/Meの場合、 またWindows XP/2000でもファイルシステムにFAT32を使っているときは、 最近の大容量ディスクではクラスタサイズが32KBとなり、 どんなに小さいファイルでも最低32KBのディスクスペースを消費することになります。 したがって、FAT32のディスク上で作業する場合は RealAudio音声ファイルだけで2GB程度のスペースが必要になります。
RealAudio形式の音声ファイルを非圧縮WAV形式に変換するには、 たとえばRa2Wavが使えます(シェアウェアだが2週間の試用可)。 ただし古いソフトであり、オリジナルの配布元からはすでに配布されていません。 以下のサイトなどから入手できるようですが、利用は自己責任で行ってください。
・Ra2Wav 1.5: http://www.mp3-world.net/software-download/1055-ra2wav.html
Ra2Wavではフォルダを指定してRealAudio→WAVの一括変換が可能ですが、 いちどに指定できるファイルは1000個程度までです。 10万個すべてのファイルを変換するには 1回あたり数分かかる一括変換の作業を100回ほどくり返す必要があり、 完了までに数時間かかります。 また、Ra2Wavで指定できる最低品質である16ビットサンプリング、 サンプリングレート8000Hz、モノラルの設定でも、 出力されるファイルの合計サイズは1.5GB程度になります (※)。 一括変換の手順については 「Ra2Wav 1.5で音声ファイルを一括変換する」 を参照してください。
QDMC形式の音声ファイルを非圧縮WAV形式に変換するには、 Windows 2000/XPであればWindows版のiTunesが使えます。 BASEPATHに指定したディレクトリにpl_???.xmlという名前で iTunes用プレイリストファイルが生成されているので、 これを利用して変換を行うことができます。 iTunesを使うと最低品質の8ビットサンプリング、サンプリングレート8000Hz、 モノラルの設定で出力されるファイルサイズが800MB程度になるようです。 一括変換の手順については 「iTunesで音声ファイルを一括変換する」 を参照してください。
・iTunes 4.6英語版/4.7日本語版 [リンク]
上記の音声データを利用し、すべての機能を有効にすると、 EBStudioで生成されるEPWING辞書のサイズは Windows版でほぼ2GB、Macintosh版でほぼ1.3GBになります。 途中のファイルを一切削除せずに作業する場合、 FAT32では6GB以上のディスクスペースが必要になりますので、 十分な余裕のあるディスクで作業してください。
※ EPWINGで使用できる音声はサンプリングレートが 11.025/22.05/44.1kHzのいずれかであり、 サンプリングレート8000Hzの音声は11.025kHzとみなして格納されるため、 再生時に少し早回しした状態になります。 しかしこれ以上サンプリングレートを上げると 生成される辞書ファイルが2GBを超えるため、 検索ソフトで正しく検索できない可能性があります。 したがってここでは8000Hzで妥協しておきます。
srd2htmlの設定ファイルでSOUND=1、GENSOUND=1を選択した場合、 srd2htmlによって約10万個のRealAudio音声ファイル(拡張子.ra)が生成され、 またEBStudioでの変換作業の際には拡張子.wavのWAV形式音声ファイルが使われます。 ここではRa2Wavを使ってRealAudio形式のファイルを 同じフォルダにWAV形式のファイルとして一括変換する手順を示します。
Ra2Wavを起動し、画面下の設定表示で「ORIGINAL」「MONO」「8000」 が選択されていることを確認します。 それ以外の設定になっていた場合は「MONO」「8000」をクリックしてください。
[DEST DIR]ボタンを押して「フォルダの参照」ダイアログから 任意のディレクトリを選び、[OK]を押します。 もういちど[DEST DIR]を押して、何もせずに[キャンセル]ボタンを押すと 「Save converted files in original's directory?」と尋ねられるので、 [はい]を押してください。 これで変換結果がオリジナルと同じディレクトリに出力されます。
[BATCH]ボタンを押すと「フォルダの参照」ダイアログが開くので、 srd2htmlの出力先にあるサブディレクトリsndの下のサブディレクトリ000を選び、 [OK]を押します。 すると「1000 RealAudio file(s) (*.ra;*.rm) found in directory: 〜」 「Proceed batch conversion?」と尋ねられるので、 [はい]を押すと一括変換が開始されます。 すべてのファイルを変換するには数分程度かかります。
000の一括変換が終了したら、001以降のすべてのサブディレクトリについて (3)と同様の手順で一括変換を実行してください。
srd2htmlの設定ファイルでSOUND=1、GENSOUND=1を選択した場合、 Macintosh版のランダムハウス英語辞典では約10万個の QDMC音声ファイル(拡張子.aifc)が生成されます。 ここではiTunesを使ってQDMC形式のファイルを同じフォルダに WAV形式のファイルとして一括変換する、きよPさんの提供による手順、 また変換を高速化するための木本豪さんときよPさんの提供による手順を示します。
srd2htmlの実行が終了すると、BASEPATHに指定したディレクトリに pl_all.xmlおよびpl_000.xml〜pl_100.xmlという 12個のiTunesプレイリストファイルが生成されています。 pl_all.xmlは10万個すべての音声ファイルのプレイリストですが、 iTunesで実際に読み込め、変換できるかどうか確認していません。 1万個ごとの音声ファイルに分割したプレイリストpl_000.xml〜pl_100.xmlを使い、 11回に分けて変換作業を行うことを推奨します。 具体的な手順は次のようになります。
サンプルレート: 8.000kHzまたは11.025kHz サンプルサイズ: 8ビットまたは16ビット チャンネル: モノラル
基本的には「すべてのチェックをはずす」という操作を行う。 以下ではデフォルト設定からの変更点を示す。
ここではViXを使ってBMP形式のファイルを同じフォルダに JPEG形式のファイルとして一括変換する手順を示します。 PICT形式からBMP形式あるいはJPEG形式に一括変換する場合もほぼ同様です。
ViXを起動し、左側のフォルダビューからsrd2htmlで出力された BMP形式の画像ファイルがあるフォルダを開きます。 すると右側のファイルビューに各BMPファイルのサムネイルが表示されます。
メニューから[編集]→[すべて選択]を実行し、すべての画像ファイルを選択します。 サムネイルの下にあるファイル名がすべて選択された色になります。
メニューから[画像]→[フォーマット一括変換]→[JPEG...]を実行します。 「フォルダの参照」ダイアログが開くので、 元ファイルと同じフォルダを選択して[OK]を押してください。 すると「JPEG保存条件」ダイアログが開くので、画質を適当に調整してください。 元画像は16色ビットマップで合計44MBほどありますが、 一括変換後のサイズは画質70%で46MB、50%で37MB、30%で30MB程度になります。 画質30%では文字の周囲がかなりにじみますが、実用上差し支えありません。
Macintosh版ランダムハウス英語辞典のCD-ROMは MacOS標準のHFSフォーマットで書かれており、 Windowsでこれを読むにはHFVExplorer(フリーソフト)などを利用する必要があります。 フォルダSRD内のREADME.TXTおよびフォルダSRD/DATA内のMAIN.TXT、 en.dat、tr.dat、IMG.DAT、SRDQ3.BNDを取り出し、 Windowsの適当なディレクトリに置いてください。 その後設定ファイルのDICPATHとDATAPATHをこのディレクトリを指すように書き換え、 Windows版と同じ手順で変換を行ってください。
・HFVExplorer [リンク]
このToolkitについてご意見・ご質問のある方は EBシリーズ・サポート掲示板に書き込んでください。 後述のアドレスまでメールをくださってもかまいませんが、 返答できないことがあります。
・EBシリーズ・サポート掲示板 [リンク]
ランダムハウス英語辞典Toolkitを構成する各ファイルはパブリックドメインに 置かれたものとして扱ってください。 再利用でも販売でも何でも自由にしていただいてかまいません。 GPLを始めとする何らかのライセンスをもつ配布物に含めて、 そのライセンスのもとで再配布することも自由です。
「FreePWINGによるJIS X 4081版『ランダムハウス英語辞典』」から 外字とUnicodeおよびJIS X0213との対応データを参考にさせていただきました。 作者のかずひこさんおよび外字リスト作成に協力された川幡太一さんに感謝します。 EBStudio作者のhishidaさんにはランダムハウス英語辞典Toolkitからの要望で EBStudioの修正を行っていただきました。 またきよPさんにはMacintosh版ランダムハウス英語辞典の音声データを WAV形式に変換するための情報をいただき、 Perlプログラムを参考にさせていただきました。 木本豪さんにはiTunesでの変換速度を向上させるヒントをいただきました。 お三方に感謝します。 その他pre-release版で動作チェックを行い、 ご意見ご要望をくださった方々に感謝します。
太田純
ohta@sdg.mdd.ricoh.co.jp
2004/12/06 | pre-release公開 前方/後方一致検索, 複合検索 図版/音声の変換 項目内ジャンプ |
2004/12/11 | pre-release2公開 外字処理部の書き直し 項目内ジャンプのカスタマイズ |
2004/12/19 | pre-release3公開 外字データの修正 別項目参照で項目内要素にジャンプできるよう改善 レイアウトの修正 |
2004/12/24 | pre-release4公開 Macintosh版ランダムハウス英語辞典への対応 |
2004/12/25 | pre-release4a公開 バグ修正(srd2html.iniの設定によらずつねにMACINTOSH=1になっていた) |
2004/12/29 | pre-release4b公開 readme.txtの変更のみ Macintosh版の音声データ変換手順を修正、詳細化 |