EBDump出力 to HTML 変換プログラム - ebd2html

最終更新日: 2005/01/03

[変換前] [変換後]
図: オリジナルの広辞苑第四版(EPWING) 図: ebd2htmlで再構成された広辞苑第四版(電子ブック)

●ebd2htmlとは

ebd2htmlはhishidaさんのEBDumpの出力からEBStudioの入力となる HTMLファイルを再構成します。 EBStudioと組み合わせることによって、 既存の電子ブックやEPWING書籍を加工できます。 たとえばEPWINGを電子ブックに変換することが可能です。 ただしebd2htmlは実験的な試みであり、できることはそれほどありません。 多くを期待しないでください。

・ebd2html experimental-0.05 [ダウンロード]
・現在のソースコード [見る]

●バージョン

実験バージョン 0.05 2005/01/03版 (随時変更されます)

●配布物

配布パッケージには以下のファイルが含まれています。

  Makefile        Borland C++ 5.5用Makefile
  ebd2html.c      ebd2html本体プログラムソース
  ebd2html.exe    ebd2html本体プログラム
  ebd2html.ini    ebd2html設定ファイル
  readme.txt      説明書

●変換に必要なEBDump/EBStudioのバージョン

ebd2htmlと組み合わせて利用するにはEBDump 1.20以降が必要です。 またebd2htmlで生成したHTMLファイルをEPWING辞書に変換するには EBStudio 1.65以降が必要です。 前方一致以外の検索を可能にするにはEBstudioのシェアウェア登録が必要です。

・EBStudio(EBシリーズ・サポートページ) [リンク]

●再構成できる電子ブック/EPWINGの要素

●再構成できない要素

●動作確認された辞書

  ○学研国語辞典(富士通FMV添付品, EPWING)
  ○学研英和辞典(富士通FMV添付品, EPWING)
  ○広辞苑第四版(EPWING)
  ○スーパー大辞林(EPWING)
  ○研究社新英和中辞典第6版(EPWING)
    ※品詞や成句へのジャンプは行えません。
  ○ジーニアス英和・和英辞典初版(EPWING)
    ※品詞や成句へのジャンプは行えません。
  ○新グローバル英和・ニューセンチュリー和英辞典(EPWING)
    ※品詞や成句へのジャンプは行えません。
  ○広辞苑第五版(EPWING)
    ※検索結果一覧の見出しに漢字表記が含まれません。

●既知の問題点

●再構成の手順

ebd2htmlを使って電子ブック/EPWING辞書を再構成する手順を示します。

(1) 環境に合わせて設定ファイルを書き換える

適当なディレクトリにebd2htmlのパッケージを展開し、 環境に合わせて設定ファイルebd2html.iniを書き換えます。 設定ファイルには以下の項目があるので、 いずれかの行頭の"#"を削除して選択肢を有効にするか、 あるいは新たに値を設定してください。

  BASEPATH      EBStudioの基準パス(ebd2htmlの出力先)
  OUTPATH       EBStudioの出力先パス(再構成される辞書の出力先)
  SORTCMD       ebd2htmlが使用するソートコマンドのパス(通常は設定不要)
  AUTOKANA      表記インデックス中のかな/カナ検索語をかなインデックスに登録
  EBTYPE        再構成先の辞書形式
  BOOKTITLE     再構成先の辞書タイトル
  BOOKDIR       再構成先の辞書ディレクトリ名
  BOOKTYPE      再構成先の辞書種別

BASEPATHはebd2htmlが本文/外字のデータファイルを出力するディレクトリです。 OUTPATHはEBStudioがBASEPATH以下のファイルを読んで 電子ブック/EPWING辞書に変換するときの変換先ディレクトリです。 SORTCMDにはWindowsに用意されているソートコマンド (sort.exe)の絶対パスを指定してください。 Windowsが標準のフォルダにインストールされている場合は指定不要です。

AUTOKANAを1にすると、表記インデックスに含まれるひらがな/カタカナ/ 長音のみから構成される検索語をかなインデックスに登録するような HTMLファイルが生成されます。 表記インデックスしかもたないEPWING辞書(研究社新英和中辞典など) を電子ブックに変換したとき、うまくかなで検索できないようなら AUTOKANAを1にしてみてください。

EBTYPEには再構成する辞書が電子ブックなら1、EPWINGなら0を指定してください。 BOOKTITLEには辞書タイトルを2バイト文字のみで指定してください。 BOOKDIRには辞書の本文/外字ファイルが格納される ディレクトリ識別名を指定してください。 使用できる文字は英大文字、数字、下線(_)のみで、 8文字以内である必要があります。 BOOKTYPEには辞書種別を以下のいずれかから選択してください。 辞書種別はカタログや書籍管理情報にそのIDが書き込まれるだけで、 検索にはなんら影響しません。

  国語辞典
  漢和辞典
  英和辞典
  和英辞典
  現代用語辞典
  一般書物
  類語辞典

なお、EBTYPE、BOOKTITLE、BOOKDIR、BOOKTYPEは出力される EBStudio定義ファイルに書き込まれるだけで、 ebd2html自身の動作には影響しません。

(2) 既存の電子ブック/EPWINGからデータを取り出す

EBDumpを起動します。次に目的の電子ブック/EPWING書籍から以下の データを取り出し、結果のファイルをebd2htmlと同じディレクトリに置きます。

  取り出し元           書籍構成要素             書き込み先ファイル
  HONMON/START         [00]本文                 honmon.txt
  HONMON/START         [90]前方一致かなINDEX    fkindex.txt
  HONMON/START         [04]前方一致かな見出し   fktitle.txt
  HONMON/START         [91]前方一致表記INDEX    fhindex.txt
  HONMON/START         [05]前方一致表記見出し   fhtitle.txt
  HONMON/START         [92]前方一致英字INDEX    faindex.txt
  HONMON/START         [08]前方一致英字見出し   fatitle.txt
  外字ファイル/START   [F1]外字(16×16ドット)   zgaiji.txt
  外字ファイル/START   [F2]外字(8×16ドット)    hgaiji.txt

EPWINGの場合、外字データはGAIJIディレクトリ以下に 独立のファイルとして格納されています。 通常、16×16ドット外字は名前に'16'と'F'または'FULL'、 8×16ドット外字では'16'と'H'または'HALF'が含まれています (GA16FULL、GA16HALF、GAI16F00、GAI16H00など)。 それ以外のデータはDATAディレクトリ以下にある HONMONまたはHONMON2に含まれています。 電子ブックの場合、すべてのデータはSTARTファイルに含まれています。

ebd2htmlを実行するためにはhonmon.txtは必須です。 何らかのインデックスも必要であるため、 fkindex.txt/fktitle.txt、fhindex.txt/fhtitle.txt faindex.txt/fatitle.txtのいずれかも必須です。 それ以外の要素はなくてもかまいません。

データの取り出し方は以下のとおりです。

  1. 「入力ファイル名」にHONMON/START/外字ファイルのいずれかを指定する
  2. 「書籍構成要素」欄からいずれかの要素を選択する
  3. 「出力ブロック数」にすぐ上の「blks」と同じ値を入力する (つまりその構成要素全体をダンプする)
  4. 「出力ファイル」にebd2htmlと同じディレクトリ中の前記のファイル名を 指定する(たとえばebd2htmlがc:\workにあり、出力ファイル名が fkindex.txtならc:\work\fkindex.txtを指定する)
  5. 「メモ帳で開く」のチェックをはずす
  6. 「テキストダンプ」のラジオボタンで「記述子」を選択する
  7. 「テキストダンプ」ボタンを押す
  8. 終了すると「ログを作成しました」というメッセージダイアログが開く

(3) HTML形式への変換を実行する

データの準備ができたら、エクスプローラから ebd2html.exeをダブルクリックして実行します。 MS-DOSプロンプトあるいはコマンドプロンプトの画面が開き、 実行中のメッセージが表示されます。 変換には数十秒〜数分程度かかります。 終了すると画面が閉じますが、 実行中のメッセージはebd2html.exeと同じディレクトリのebd2html.logに残ります。 実行が正常に進んだ場合、表示されるメッセージは次のようになります。

  開始時刻: Sun Dec 26 17:18:45 2004
  作業ディレクトリ C:\WORK に移動しました
  変換設定は以下のとおりです
    BASEPATH = c:\work\
    OUTPATH = c:\dic\
    SORTCMD = 
    AUTOKANA = 0
    EBTYPE = 1
    BOOKTITLE = ラリホー英和辞典
    BOOKTYPE = 英和辞典
    BOOKDIR = RARIHOO
    生成されるHTMLファイル = RARIHOO.html
    生成されるEBSファイル = RARIHOO.ebs
  外字ファイルを生成しています... 終了しました
  かなインデックスデータを変換しています... 終了しました
  かなインデックスデータをソートしています... 終了しました
  かな見出しデータを生成しています... 終了しました
  表記インデックスデータを変換しています... 終了しました
  表記インデックスデータをソートしています... 終了しました
  表記見出しデータを生成しています... 終了しました
  英字インデックスデータを変換しています... 終了しました
  英字インデックスデータをソートしています... 終了しました
  英字見出しデータを生成しています... 終了しました
  HTMLファイルを生成しています...
  HTMLファイルの生成が終了しました
  EBSファイルを生成しています... 終了しました
  変換処理が終了しました
  終了時刻: Sun Dec 26 17:18:58 2004
  経過時間: 0:13
  ※ c:\work\RARIHOO.ebs を入力としてEBStudioを実行してください

変換が終了すると、設定ファイルの BASEPATHで指定したディレクトリに次のファイルが作られます。

  ???.html          本文HTMLファイル(???はBOOKDIRと同じ)
  ???.ebs           EBStudio定義ファイル(???はBOOKDIRと同じ)
  GaijiMap.xml      外字マップファイル
  Gaiji.xml         外字フォントファイル

(4) 電子ブックまたはEPWINGへの変換を実行する

EBStudioを起動し、[ファイル]→[開く...]で先に生成された ???.ebsをオープンします。 次に[ファイル]→[実行]で変換を実行します。 正常に終了すると、設定ファイルのOUTPATHで指定した ディレクトリに書籍が生成されています。

以上で作業は終了です。

●サポートについて

ebd2htmlについてご意見・ご質問のある方は EBシリーズ・サポート掲示板に書き込んでください。 改善へのご要望については後ろ向きに検討させていただきます。

・EBシリーズ・サポート掲示板 [リンク]

●著作権について

ebd2htmlを構成する各ファイルはパブリックドメインに置かれたものとして 扱ってください。 再利用でも販売でも何でも自由にしていただいてかまいません。 GPLを始めとする何らかのライセンスをもつ配布物に含めて、 そのライセンスのもとで再配布することも自由です。

●作者

太田純
ohta@sdg.mdd.ricoh.co.jp

●更新履歴

2004/12/26 実験バージョン 0.01
前方/後方一致検索と外字の再構成のみ実装
2004/12/27 実験バージョン 0.02
ファイル作成時に許可モードを指定していなかったバグを修正
2004/12/29 実験バージョン 0.03
オープンしていないファイルを読みにいっていたバグを修正
その他各種バグ修正
広辞苑第四版で動作確認
2004/12/30 実験バージョン 0.04
特殊文字をエスケープし忘れていたバグを修正
長すぎる見出しが正しく扱えなかったバグを修正
別ページへのジャンプ(研究社新英和など)に対応
その他レイアウトまわりの改善
ジーニアス英和/研究社新英和/スーパー大辞林で動作確認
2005/01/03 実験バージョン 0.05
検索見出しの途中に改行があったときに異常終了するバグを修正
英字インデックス/見出し(faindex.txt/fatitle.txt)に対応
本文を見出しデータとして共有する書籍(広辞苑第五版)に対応
AUTOKANAオプションを追加
広辞苑第五版/リーダーズ+プラス/新グローバル英和で動作確認

[↑Home]