最終更新日: 2005/3/7
多くのユーザの貢献により、現在ではさまざまな辞書が UNIXで使えるようになっている。 ここではEPWINGや電子ブックをさらに便利に使うコツや 独自フォーマットの辞書をUNIXで利用する手順について解説しよう。
EPWINGや電子ブックは便利だが、CD-ROMのまま使うのでは ドライブを占有するし検索にも時間がかかる。 最近はハードディスクも大容量化しているので ハードディスクに置いて使ったほうがはるかに便利だ。 ここでは辞書をハードディスクに置くことを前提に、 便利に使えるように辞書データを加工する方法を解説しよう。 具体例として、テキストデータのみを残すという前提で EPWINGの広辞苑第五版をできるだけ小さくすることを試みる。
ebutilsは、EPWINGや電子ブックのカタログを編集したり コンテンツから特定のインデックスやデータを削除して 辞書を軽量化したりするユーティリティを集めたもので、 次のプログラムを含んでいる。
プログラム | 説明 |
catdump | カタログのダンプとアンダンプ |
bookinfo | 書籍要素情報の表示 |
squeeze | 書籍の軽量化 |
原型は筆者が書いたepwutilだが、そちらは初版以降改良されていない。 ebutilsは圧縮書籍を含む最近のタイトルにも対応しているため、 できるだけこちらを利用していただきたい。
ebutilsは電子辞書オープンラボでCVSを使って管理されているが、 CVSが使えない人のために根本隆さんがeDict Snapshotで スナップショットを配布している。
・ebutils 1.2pre [CVSリポジトリ] [eDict Snapshot]
インストール方法はいつもと同じだ。 パッケージを展開し、configureしてからmakeする。 次にrootになってmake installする。
$ gzip -dc ebutils-1.2pre-20030906.tar.gz | tar xvf - $ cd ebutils-1.2pre $ ./configure $ make # make install
catdumpはEPWINGや電子ブックのカタログを テキストファイルに出力したり、テキストファイルから カタログを作ったりするユーティリティだ。 catdumpを使えば、カタログを編集して 書籍データを追加したり取り除いたりすることができる。
広辞苑第五版には本体のほかに付属資料、書籍選択という 2つの書籍データが付属している。 辞書としては使わないのに辞書ブラウザの選択メニューに 出てくるのは目ざわりなので、catdumpを使って取り除いてみよう。 CD-ROMの内容は/dic/kojien5にコピーしてあるものとする。
広辞苑第五版のルートディレクトリにあるカタログを、 catdumpを使ってテキストファイルに出力する。
$ cd /dic/kojien5 $ catdump catalogs > catalogs.txt
catalogs.txtの内容を図に示しておこう。
; 電子ブック/EPWING カタログ内容 (generated by catdump v1.2pre) [Catalog] FileName = catalogs Type = EPWING5 Books = 3 BookSelect = 3 Reserved = 00000000000000000000 [Book] BookType = 0005 (00:国語辞典, 05:EPWING5) Title = "広辞苑第五版" Directory = "KOJIEN" InfoBlock = 0001 ZenGaiji = "GA16FULLGA24FULLGA30FULLGA48FULL" HanGaiji = "GA16HALFGA24HALFGA30HALFGA48HALF" Reserved1 = 062B0000 BookFile = "HONMON2" Padding2 = 0000000000010200 GraphicsFile= "HONMONG" Reserved2 = 00000011 SoundFile = "HONMONS" [Book] BookType = 8005 (80:不明, 05:EPWING5) Title = "付属資料" Directory = "FUROKU" InfoBlock = 0001 ZenGaiji = "GA16FULLGA24FULLGA30FULLGA48FULL" HanGaiji = "GA16HALFGA24HALFGA30HALFGA48HALF" Reserved1 = 000B0000 BookFile = "HONMON" [Book] BookType = F004 (F0:ストリーム, 04:EPWING4) Title = "書籍選択" Directory = "SCREEN" Reserved1 = 01100000 StreamFile = "SELECT" |
catalogs.txtを編集し、付属資料と書籍選択に対応する 2番めと3番めの[Book]をまるごと削除する。 次に、[Catalog]にあるBooksを1に変更し、BookSelectの行を削除する。 結果は次のようになる。
; 電子ブック/EPWING カタログ内容 (generated by catdump v1.2pre) [Catalog] FileName = catalogs Type = EPWING5 Books = 1 Reserved = 00000000000000000000 [Book] BookType = 0005 (00:国語辞典, 05:EPWING5) Title = "広辞苑第五版" Directory = "KOJIEN" InfoBlock = 0001 ZenGaiji = "GA16FULLGA24FULLGA30FULLGA48FULL" HanGaiji = "GA16HALFGA24HALFGA30HALFGA48HALF" Reserved1 = 062B0000 BookFile = "HONMON2" Padding2 = 0000000000010200 GraphicsFile= "HONMONG" Reserved2 = 00000011 SoundFile = "HONMONS" |
最後に、変更後のcatalogs.txtからカタログを作る。
$ catdump -u catalogs.txt catalogs
これで広辞苑本体だけのカタログができた。 NDTPDを動かしている場合は、カタログを読み直させるために再起動しておこう。
なお、catdumpを使えば複数のカタログを1つにまとめることもできる。 次に述べる方法で軽量化した複数の辞書を1つのCD-Rに 共存させたいときに便利だ。 ただし、EPWINGと電子ブックのカタログを1つにすることはできない。 またバージョンの異なるEPWINGを1つにまとめるときは、 [Catalog]のTypeは[Book]にある最大のバージョンに合わせる必要がある。
EPWINGや電子ブックの辞書にはさまざまな検索インデックスや マルチメディアデータが含まれている。 bookinfoを使えば辞書がどのような構成要素でできているかを確認でき、 squeezeでは不要な構成要素を取り除いて辞書を小さくできる。 さらにEBライブラリに含まれるebzipを使えば辞書を圧縮することが可能だ。 ここでは広辞苑第五版を次の方針で加工してみよう。
今回の作業でできる辞書はEPWING V1として扱いたい(※1)ので、 前節のカタログデータをさらに図のように変更し、 catdump -uでカタログを作り直す。 変更点は[Catalog]のType、[Book]のBookType、ZenGaiji、HanGaijiだ。 またEPWING V2以降でのみ必要な項目はすべて削除する。
$ pwd
/dic/kojien5
$ vi catalogs.txt
(ここで内容を編集する)
$ catdump -u catalogs.txt catalogs
変更後のカタログ内容は次のようになる。
; 電子ブック/EPWING カタログ内容 (generated by catdump v1.2pre) [Catalog] Type = EPWING1 Books = 1 [Book] BookType = 0001 (00:国語辞典, 01:EPWING1) Title = "広辞苑第五版" Directory = "KOJIEN" InfoBlock = 0001 ZenGaiji = "GA16FULL" HanGaiji = "GA16HALF" |
※1: EPWING圧縮が解除されるので、本来はそれに合わせて カタログデータを変更しなければならないのだが、 カタログデータの仕様はV1相当の部分しか判明していない。 このためV2以降で必要なデータ(ReservedやPaddingで示されている)をすべて削除し、 カタログ上はV1にあたる書籍を作ろうというわけだ。 本文データにはV2以降でのみ有効なタグデータを含む可能性があるが、 ほとんどの辞書ブラウザで問題なく扱える。
広辞苑第五版は図のようなディレクトリ構成になっており、 全体でおよそ538MBのデータが含まれている。
次は不要なファイルを削除しよう。 まずDATA以下にある画像データファイルHONMONG、 音声データファイルHONMONSを削除する。 GAIJIの下はGA16FULLとGA16HALFを除いて削除する。 MOVIEはディレクトリごと削除する。
$ cd kojien $ rm data/honmon[gs] $ rm gaiji/ga[234]* $ rm -fr movie
これでサイズが143MBになった。
次にbookinfoを使って広辞苑本体の書籍管理情報を見る。
$ cd data $ bookinfo honmon2 | less
結果を図に示しておこう。
; 電子ブック/EPWING 書籍管理情報 (generated by bookinfo v1.2pre) 対象書籍ファイル = honmon2 情報所在ブロック = 1 書籍構成要素数 = 28 予備領域1(書籍種別/保護情報) = 0090H 書籍種別: 国語辞典 保護情報: 表示許可, 印刷許可, テキスト引用許可, 図版引用許可, カラー図版引用許可, 動画引用禁止, 大量引用許可 INDEX情報の取扱法 = 04H (不明) ID 名称 先頭 サイズ INDEX情報 予備3/4 *00 本文 2 21421 kasctygdh 00/0000 *90 前方一致かなインデックス 21423 6729 kasctygdh 00/0000 *04 前方一致かな見出し 28152 54 kasctygdh 00/0000 *91 前方一致表記形インデックス 28206 3119 .as...... 00/0000 *05 前方一致表記形見出し 31325 66 kasctygdh 00/0000 *70 後方一致かなインデックス 31391 6729 kasctygdh 00/0000 *06 後方一致かな見出し 38120 54 kasctygdh 00/0000 *71 後方一致表記形インデックス 38174 3119 .as...... 00/0000 *07 後方一致表記形見出し 41293 66 kasctygdh 00/0000 80 条件検索インデックス 41359 47275 .as...... 00/0000 03 条件検索見出し 88634 903 kasctygdh 00/0000 81 クロス検索インデックス 89537 536 .as...... 00/0000 FF 複合検索 *** 9225 kasctygdh 00/0000 FF 複合検索 *** 5904 kasctygdh 00/0000 FF 複合検索 *** 3707 kasctygdh 00/0000 FF 複合検索 *** 2485 kasctygdh 00/0000 FF 複合検索 *** 3051 kasctygdh 00/0000 12 禁則文字 104144 1 kasctygdh 00/0000 13 その他のテキストデータ 104145 1 kasctygdh 00/0000 14 その他のテキストデータ 104146 1 kasctygdh 00/0000 15 その他のテキストデータ 104147 1 kasctygdh 00/0000 16 複合検索見出し 104148 1 kasctygdh 00/0000 E0 色見本 104149 266 kasctygdh 00/0000 10 メニュー検索 (画像) 104415 384 kasctygdh 00/0000 D0 モノクロ図版 104799 2652 kasctygdh 00/0000 *02 著作権表示 107451 1 kasctygdh 00/0000 D2 カラー図版 1 103973 kasctygdh 00/0000 D8 PCM音声 1 34099 kasctygdh 00/0000 表示方法の初期値情報: 有効無効フラグ = 01H (初期値情報は有効) 一覧表表示 = 01H (一覧表を表示し、選択指示を受けて表示) 本文表示法 = 01H (検索結果を先頭に本文を表示) 書籍ファイルサイズ = 143MB (圧縮前のファイルサイズ = 210MB) マーク部分のサイズ = 81MB |
条件検索やクロス検索、複合検索のインデックスのほか、 図版やPCM音声などのデータが含まれていること、 圧縮されているために143MBになっているが、 元データは210MBあることがわかる。 行頭に“*”があるのはsqueezeをオプションなしで 実行したときに残される構成要素であり、 これだけを残せば81MBになる。
こんどはsqueezeを使ってhonmon2から不要なインデックスや マルチメディアデータを削除しよう。 squeezeの初期設定どおりでよいので オプションは指定しない(※2)。 結果はEPWING V1として扱うのでファイル名はhonmonとする。 実行後はhonmon2が不要になるので削除する。
$ squeeze honmon2 honmon $ rm honmon2
これで81MBまでサイズが小さくなった。 削除されたデータを参照する本文中のリンクは squeezeによって“→□”という文字列に変更されている。
※2:
squeezeでは削除したい書籍構成要素ID(bookinfoで表示される)を
--deleteオプションにカンマで区切って並べることにより指定する。
標準では本文、メニュー、著作権表示、各種前方/後方インデックス
および対応する見出しのみを残し、残りのすべての要素を削除する。
したがって、上のコマンドは次のようにsqueezeを実行した場合に等しい。
squeeze --delete=03,0a-6f,73-8f,93-ef,f9-ff honmon2 honmon
最後にebzipを使って辞書データを圧縮しよう。 ebzipで圧縮した辞書はEBライブラリ経由でしかアクセスできないが、 UNIXで使う限りは問題ない。
ebzipは引数で指定したディレクトリ以下にある辞書データを圧縮し、 結果をカレントディレクトリ以下に生成する。 --keepオプションを指定しなければ元データは削除される。 圧縮レベルは--levelオプションで指定する。
$ mkdir /dic/kojien5.new $ cd /dic/kojien5.new $ ebzip --level=5 /dic/kojien5 $ cd .. $ mv kojien5.new kojien5
これで元の/dic/kojien5にあった辞書データはなくなり、 圧縮された辞書データが/dic/kojien5以下に置かれる。 本文ファイルはhonmon.ebz、外字ファイルは ga16full.ebz、ga16half.ebzと名前が変更される。
これで全体のサイズは31MBとなった。 最初の538MBとくらべると6%以下にまで小さくなったわけだ。
マルチメディアデータを含む辞書を軽量化するときは注意が必要だ。 ここで作った縮小版広辞苑の本文には、オリジナルにあった HONMONG(画像ファイル)やHONMONS(音声ファイル)へのリンクが残っている。 squeezeは参照先のない内部リンクは“→□”に置き換えてくれるが、 外部へのリンクは(現在のところ)そのままコピーしてしまうからだ。 このため、本文を表示する際にこれらのデータを無条件に参照しようとする 辞書ブラウザは、異常終了したりエラーを起こしたりすることになる。
今回取り上げた中ではEBViewおよびリンク画像のインライン表示を 有効にしたときのlet me see...がこれに該当する。 ebHTTPDやインライン表示を無効にしたlet me see...では 画像や音声へのリンクをクリックしなければ問題ない。 BookViewや公式版のeblook/lookupではマルチメディアデータを 参照しないので問題は起きない。
なお、squeezeはむやみやたらと使えばよいものではない。 元データにある書籍構成要素はいずれも、 何らかの目的があって用意されているものだからだ。 たとえば研究社の新編英和活用大辞典をオプションなしの squeezeで軽量化すると、519MBが83MBへとサイズが激減する。 しかし、取り除かれた複合検索と条件検索のインデックスこそが この辞書を役立つものにしているのであり、 このようなインデックスを削除するのは本末転倒でしかない。 squeezeを使うときは自分が何をしているのかよく理解しておこう。
電子ブックはかな漢字変換機能をもたない専用プレーヤを前提に 作られているため、電子ブックの国語辞典は読みでしか検索できない。 しかし、これを漢字で引けるようにする方法があるのだ。
WindowsでEPWING書籍を作るユーティリティEB Studioの作者、 hishidaさんが電子ブック漢字インデクサというフリーソフトを配布している。 Windowsでの作業が必要だが、これを使えば電子ブックの辞書に 表記形インデックスを追加し、UNIXの辞書ブラウザでも 漢字かな交じりの見出しから検索できるようになる。
・電子ブック漢字インデクサ 1.02 [リンク]
★追記(2004年5月8日)
2004年4月22日にバージョン1.02が公開されていたのに合わせて変更。
私的使用の範囲であれば、EPWINGや電子ブックのデータを改変しても 著作権法上は何の問題もない。 独自フォーマット製品と異なって利用許諾で縛られることもない。 したがってデータの改変は自由に行ってよいことになる。
ただし、以前DOS/Vマガジンで同趣旨の記事(※3)を書いたとき、 EPWINGコンソーシアム(富士通内部にある)の担当者から こういうことは書かないでほしいと電話をいただいた。 出版社としてはすべてのデータやインデックスが揃ったものを 完成した商品として提供しているのであり、 一部だけを取り出したものをその製品と考えてほしくはないということだ。 出版社の意向は理解できるが、ユーザごとにニーズの違いがあり、 それらすべてに出版社が対応できない以上、 個人的な範囲での改変は容認してほしいところだ。 とはいうものの、このような要求を正当化するには、 ユーザ側としても不正利用には決して手を出さないなど、 さまざまな面で意識を高める必要があるといっておこう。
※3: DOS/Vマガジン1999年3月15日号「電子辞書/事典パワフル活用法」
Windowsではさまざまな独自フォーマットの辞書が販売されている。 電子ブックやEPWINGとして電子化されていないタイトルも多い。 主な独自フォーマット辞書を以下の表に挙げておく。 ここではこれらの辞書がUNIXで使えるようにEPWINGに変換する方法を解説しよう。
Windows版の辞書製品をEPWINGに変換するには、 まず辞書データを読み出さなければならない。 CD-ROM上の辞書にアクセスするタイプの製品なら その辞書データをそのまま読んでしまえばよいが、 ハードディスクインストール型の製品では辞書データが インストーラの専用形式でアーカイブされていることもある。 このタイプはいったんWindowsにインストールしてからでないと 辞書データが取り出せず、どうしてもWindowsが必要になる。
UNIX上で独自フォーマットの辞書をEPWINGに変換するには、 笠原基之さんのFreePWINGが利用可能だ。 FreePWINGはPerlで書かれたライブラリ群であり、 EPWING書籍を組み立てるためのさまざまな機能が用意されている。 独自フォーマットの辞書データをEPWINGに変換するためには、 専用のFreePWINGプログラム(FreePWINGライブラリを呼び出す Perlプログラム)を書かなければならないが、 既存のFreePWINGプログラムを使って 変換作業をするだけなら操作はむずかしくない。
・freepwing 1.4.4 [リンク]
Windowsで作業する場合はhishidaさんのEB Studioが役に立つ。 EB StudioはHTML形式で書かれた辞書データをEPWINGに変換する Windowsアプリケーションだ。シェアウェアだが、 前方一致検索だけでよければライセンスフリーで利用できる。
・EBシリーズ・サポートページ [リンク]
FreePWINGやEB Studioを利用すれば自作のコンテンツを EPWINGに変換することも可能だ。
ここではFreePWINGとsrd-fpwを使って小学館ランダムハウス英語辞典を EPWINGに変換する具体的な手順を示すことにしよう。 マルチメディアデータは変換しないものとする。
★修正(2004年2月3日)
Windows XP対応版のランダムハウス英語辞典V1.50での作業手順を追加した。
このバージョンでは本文やインデックスのファイルが
Microsoft CAB形式のアーカイブとしてまとめられているため、
cabextractを使ってファイルを抜き出す必要がある。
作業にはFreePWING、ebutilsのほかに以下のソフトが必要なので、 あらかじめダウンロードしておこう。
・Jcode.pm 0.88 (Perlで日本語コードを扱うモジュール)
[リンク]
・srd-fpw 1.1.6 (ランダムハウスをEPWINGに変換するスクリプト)
[リンク]
・cabextract 1.1 (Windows XP対応版でのみ必要)
[リンク]
パッケージを展開し、configureしてからmakeする。 次にrootになってmake installする。
$ gzip -dc freepwing-1.4.4.tar.gz | tar xvf - $ cd freepwing-1.4.4 $ ./configure $ make # make install
パッケージを展開し、Makefileを生成してからmakeする。 rootになってmake installする。
$ gzip -dc Jcode-0.88.tar.gz | tar xvf - $ cd Jcode-0.88 $ perl Makefile.PL $ make # make install
Windows XP対応版のランダムハウス英語辞典では CAB形式のアーカイブを展開するためにこれが必要になる。 パッケージを展開し、configureしてからmakeする。 次にrootになってmake installする。
$ gzip -dc cabextract-1.1.tar.gz | tar xvf - $ cd cabextract-1.1 $ ./configure $ make # make install
$ gzip -dc srd-fpw1.1.6-src.tar.gz | tar xvf -
$ cd srd-fpw1.1.6
$ vi srd-fpw.conf
(ここで内容を編集する)
srd-fpw.confを変更すると、辞書ブラウザで表示したときの見かけを変えたり、 マルチメディアデータを変換するかどうかを選べたりする。 ここではマルチメディアデータが不要なので以下の2行の 先頭に“#”をつけ、コメントアウトする。
#$multimedia_flag = 1; #$png_flag = 1; |
初期バージョンのランダムハウス英語辞典では、 CD-ROMをマウントし、fpwmakeを実行するだけでよい。 以下の例はCD-ROMが/mnt/cdrom以下にマウントされている場合だ。 本文ファイルの作成には相当な時間(筆者の環境では1時間半)がかかるが、 進捗状況が逐一表示されるのでやきもきせずにすむ。 本文と外字ができたら、次はfpwmakeでカタログを作る。
# (CD-ROMのマウント操作) $ fpwmake SRCDIR=/mnt/cdrom # (CD-ROMのアンマウント操作) $ fpwmake catalogs
ランダムハウス英語辞典がWindows XP対応版の場合、 fpwmakeを実行する前にアーカイブを展開しておかなければならない。 このため作業手順は次のようになる。
$ mkdir -p source/DATA # (CD-ROMのマウント操作) $ cabextract -d source/DATA /mnt/cdrom/Data1.cab $ mv source/DATA/Readme.txt source # (CD-ROMのアンマウント操作) $ fpwmake $ fpwmake catalogs
以下の操作によって/dic/srd-fpwの下にEPWINGフォーマットの ディレクトリ構造が作られ、そこにランダムハウス英語辞典の 辞書データがインストールされる。
# fpwmake install INSTALLDIR=/dic
以上で作業は終わりだ。 EBViewでもlookupでもよいが、お好きな辞書ブラウザで ランダムハウス英語辞典を検索してみていただきたい。
★追記(2004年5月8日)
cabextract 1.0が公開されていたのに合わせて変更。
★追記(2004年7月24日)
Jcode.pmのバージョンが0.87に上がっていたのに合わせて変更。
★追記(2004年11月14日)
cabextract 1.1が公開されていたのに合わせて変更。
★追記(2005年2月19日)
freepwing(1.4.3 → 1.4.4)、Jcode.pm(0.87 → 0.88)、
srd-fpw(1.1.5 → 1.1.6)のバージョンアップに合わせて記述を変更。
独自フォーマットの辞書製品は専用ブラウザと組み合わせて販売される ソフトウェアであり、著作権法上は“プログラムの著作物”として扱われる。 またユーザは原則として利用許諾に縛られるため、 利用許諾にデータの改変を禁止する条項があれば、 もちろん改変はライセンス違反になる。
とはいえメーカー側もユーザの利便を無条件に拒絶することはできない。 その辞書をUNIXで使いたいというのはまっとうな要求であり、 著作権法でもこのような改変(※4)には 同一性保持権を適用しないことになっている。 つまり、改変の禁止は守られて当然の権利を超えたものだということだ。 したがって、メーカーが得てしかるべき利益を損なうものでないかぎり、 個人的な範囲での改変はユーザの権利であると考えてよい。 あとはすべて“at your own risk”だ。
※4: 「特定の電子計算機においては利用し得ないプログラムの著作物を 当該電子計算機において利用し得るようにするため…に必要な改変」 (著作権法第二十条二項三号)がこれにあたる。 改正著作権法では技術的保護手段の回避を伴う私的使用のための複製が 禁止されたが、この記事で取り上げる改変ではこの種の回避を行っていない。
辞書データの改変に対するスタンスを各メーカーに問い合わせてみたので、 回答を表にまとめておこう。 くり返すが、回答をくださったメーカーに感謝しておきたい。
●質問 1. EPWINGなどの共通フォーマットに変換して利用することを容認しているか? 2. 1.でNoの場合、UNIXユーザに何らかの便宜を図ることを検討しているか? 3. 1.でYesの場合、改変データをネットワーク上で利用することについて どう考えるか? ●回答 ○三省堂 1. 容認していない 2. 回答なし ○ロゴヴィスタ 1. 容認していない 2. イントラネット環境で利用できるLinux版電子辞典システムを販売している(※) ○学研 1. 容認していない 2. 検討中 ※システムソフト電子図書館シリーズのLinux版と思われる。 Web上には現在のところ情報がない。 |
ここではUNIX上の作業だけでEPWINGに変換できるタイトルを紹介しよう。 ラインナップの豊富なシステムソフト電子辞典シリーズが変換可能なため、 実際にはかなりのコンテンツが利用可能だ。
総語数34万5千語の大型英和辞典。 本文中の訳語にも索引がつけられているので、 制約はあるものの和英辞典のように引くことが可能だ。 FreePWINGを利用したEPWING変換スクリプトsrd-fpwを かずひこさんが書き、公開している。 lookup用補助パッケージを使えば画像データを Emacsでインライン表示することもできる。 筆者作のcsrdは辞書データを変換せずにそのまま検索する CUIベースの検索ツールだが、成句・用例検索が可能だ。 西田圭介さんのlookupにはcsrdを呼び出すための インタフェースが用意されている。
・srd-fpw 1.1.6, srd-fpw-package 1.0.8
[リンク]
・csrd 1.0
[リンク]
世界大百科事典と肩を並べる本格的百科事典である 日本大百科全書(13万項目)を電子化した製品であり、 小学館国語大辞典(25万語)も付属する。 スーパーニッポニカ2001ライト版(在庫限り→販売終了)については、 電子辞書オープンラボのメーリングリストで大和慎一さんが FreePWINGを利用したEPWING変換スクリプトssnfpwを公開されている。 付属の小学館国語大辞典は藤井宏憲さんのssnukで テキストが抽出できるが、完全な辞書順にはならない。 スーパーニッポニカは年度によってデータ形式が異なり、 Windows上でスーパーニッポニカToolkitを使用したほうが トラブルが少ないと思われる。
・スーパーニッポニカToolkit/開発者向情報 [リンク]
★追記(2004年1月18日)
在庫限りで販売が続けられていた2001ライト版だが、
小学館のオンラインショップ(表題リンク先)でついに「在庫なし」となった。
★追記(2004年5月8日)
2004年2月25日にスーパーニッポニカProfessional(2004年版)が発売され、
これに合わせて2003年版は販売終了となった。
Professionalは上記のツールでは変換できないものと思われる。
日立デジタル平凡社が販売していた小型マルチメディア百科事典(6万5千項目)。 週刊ピーシー・サクセスの付録についたこともある。 単体販売終了からしばらくのち、世界大百科事典の付属品という位置づけで 販売が再開されたが、マルチメディアデータのほとんどは割愛されてしまった。 検索インタフェースも世界大百科事典に合わせて変更されている。 ソースネクストが販売する「マイペディアとデジタル地図帳セット」は 世界大百科事典付属のマイペディアとほぼ同じものだが、 外字がすべて「内田百【けん】」のようにかな表記で置き換えられており、 百科事典としては満足できないものだ。 そのほか、システムソフト電子辞典シリーズに「マイペディア99テキスト版」がある。
単体販売されていたマイペディアおよび 週刊ピーシー・サクセス付属版のマイペディアについては、 FreePWINGを利用したEPWING変換スクリプトmypaedia-fpwを かずひこさんが書き、公開している。 マルチメディアデータはEPWINGに変換されないが、 lookup用補助パッケージを使えば外部ファイルを Emacsでインライン表示することが可能だ。 かつて販売されていたマイペディアPDA版は変換できない。 現在販売されている世界大百科事典付属版、ソースネクスト版は Windows上で世界大百科事典Toolkitを使って変換するしかない。
・mypaedia-fpw 1.4.3, mypaedia-fpw-package-1.0.7 [リンク]
★追記(2004年1月6日)
マイペディアPDA版も流通在庫限りで
販売終了となってしまった。
★修正(2004年5月8日)
マイペディアは一時製品ラインナップから完全に消滅していたが、
2004年5月6日に世界大百科事典第2版の付属コンテンツという位置づけで復活した。
これに合わせて記述を修正してある。
★修正(2004年5月25日)
世界大百科事典第2版付属のマイペディアは世界大百科事典と
同じフォーマットでコンテンツが格納されているようであり、
これに合わせて記述を修正した。
Windows上の世界大百科事典Toolkitでテキストの取り出しに
成功したという報告がある。
★追記(2004年5月28日)
2004年6月18日にソースネクストの1980円シリーズで
「百科事典マイペディア」が発売されるらしい。
商品説明に「図・式など約320点」とあり、
オリジナルのマイペディアが持っていた
マルチメディアデータのほとんどが割愛されていると思われる。
★追記(2004年6月20日)
ソースネクスト版の登場に合わせて記述を変更した。
「システムソフト電子辞典シリーズ」は システムソフトが販売していたラインナップの豊富なシリーズ製品。 現在はロゴヴィスタが開発・販売を引き継いでおり、 EPWINGや電子ブックにない新明解国語辞典がある。 付属の辞書ブラウザでEPWING V2のコンテンツを閲覧できるため、 パッケージには“EPWING”の記載がある。 このためEPWINGフォーマットの製品と勘違いして買ってしまうユーザが後を絶たない。 そのひとりである藤井宏憲さんが書いたdessedでEPWINGに変換できるが、 最初期のいくつかのタイトルには対応していない。
このシリーズは対応するEPWINGコンテンツを複数のファイルに分割し、 いくつかの構成要素を削除してからLZ77で圧縮したものだ。 このため、dessedで変換するとファイル中にギャップができたり (研究社新英和・和英中辞典、新編英和活用大辞典など)、 本文内に参照先のないリンクが残ったり(広辞苑など)することがある。 変換結果をいったんsqueezeに通せばギャップはなくなり、 参照先のないリンクも“→□”に変換され、安心して使えるようになる。
・dessed 1.1 [リンク]
★追記(2004年7月24日)
2004年7月23日、ロゴヴィスタはシステムソフト電子辞典シリーズの
ダウンロード版を新たに「LogoVista電子辞典シリーズ」として発売した。
セット商品は用意されていないが、
システムソフト電子辞典シリーズとくらべて価格が引き下げられている。
パッケージ形態は不明だが、
辞書データそのものはdessedでEPWINGに変換できると思われる。
★追記(2004年7月24日)
2004年7月16日、ジャングルのデジタル類語辞典第3版シソーラスに
「広辞苑第五版図版付き」または「広辞苑第五版図版付き」と
「現代用語の基礎知識2004」を組み合わせたセット商品が登場した。
この広辞苑と現代用語の基礎知識はいずれも
システムソフト電子辞典シリーズのOEM版だった。
プロの翻訳者・通訳者によるグループ“EDP”による英和・和英辞典。 内容にばらつきはあるものの、100万語を超える収録語数はやはり魅力だ。 以前は@nifty会員であればアクセス費用のみでダウンロードできたが 現在は書籍版とCD-R版のみが入手できる。 EPWINGへの変換にはsatomi/ReiさんのFreePWINGスクリプトeijiro-fpwが利用できたが、 英辞郎Ver.80以降についてはデータ仕様が変更されているため、 スクリプト側で対応が行われるまでは変換できないと思われる。
・satomiさんのFreePWING Dictionaries (eijiro-fpwは現在リンクなし) [リンク]
★追記(2004年11月14日)
satomiさんのサイトが移転し、eijiro-fpwは現在ダウンロードできない。
また、2004年11月10日公開の英辞郎Ver.80でデータ仕様が一部変更された。
各種変換スクリプトを利用する際は新仕様に対応しているか確認する必要がある。
書籍版の『英辞郎II』は2005年2月28日発売予定。
FreePWINGによる変換スクリプトや変換済みのフリー辞書を配布する FPWBOOKというサイトがある。 ここでは悪魔の辞典、ライフサイエンス辞書、ロジェのシソーラス、 EDICT和英辞書、The Jargon File、Webster1913、WordNetなど、 EPWING変換済みのさまざまなフリーな辞書を配布している。 いちどは訪れてみていただきたい。
・FPWBOOK [リンク]
VectorでMaximilkさんがEPWINGに変換済みのフリー辞書を配布している。 Webster1913では220枚の画像データを統合するなど、 きわめて入念な仕事が行われているという印象だ。 配布されている辞書を示しておこう。
・Macimilk (Vector) [リンク]
★追記(2004年7月24日)
Maximilkさんによる変換済み辞書の記述を追加。
残念なことに、いくつかのタイトルについては EPWINGへの変換にWindowsでの作業が必要になる。 ここではそのような製品について説明しよう。 実際のところ独自フォーマットの解析はWindows上のほうが活発だ。
刊行年度は古いが、現在でも国内最高峰の百科事典。 電子化を行ったのは日立デジタル平凡社だが、同社はすでに解散し、 開発と販売は日立システムアンドサービスに移管されている。 この百科事典はhishidaさんの世界大百科事典ToolkitでEPWINGに変換できる。 UNIX上ではかずひこさんがFreePWING用変換スクリプトを開発中だ。
・世界大百科事典Toolkit 1.01 [リンク]
★追記(2004年5月8日)
2004年5月6日に「世界大百科事典第2版&マイペディア」が発売された。
世界大百科事典Toolkitでは現在のところ動作確認されていない。
かずひこさんのFreePWING用変換スクリプトはその後進展がない。
★追記(2004年6月20日)
「世界大百科事典第2版&マイペディア」が
世界大百科事典Toolkitで変換できることが確認された。
ただしマイペディアについては手作業が必要になる。
★追記(2005年2月19日)
世界大百科事典Toolkitが1.01で
「世界大百科事典第2版&マイペディア」に正式対応した。
hishidaさんのスーパーニッポニカToolkitとEB Studioで スーパーニッポニカと小学館国語大辞典をまとめて変換できる。 対象は1999/2001ライト版、2001〜2003DVD版。 現在のところProfessional(2004年版)は変換できない。 1998年総合版(CD-ROM 4枚組)は上記に加えて noptyさんの変換スクリプトを使うことにより変換できるが、 データの抽出にMicrosoft Access 97以降が必要。
・スーパーニッポニカToolkit 1.05
[リンク]
・スーパーニッポニカ1998年総合版をEPWING化する
[リンク]
★追記(2003年12月30日)
1998年総合版の変換に必要な解析情報は
hishidaさんのところにすでに揃っている。
今後hishidaさんが製品を入手したら対応が行われるはずだ。
★追記(2004年1月12日)
EBシリーズ・サポート掲示板でnoptyさんが1998年総合版変換スクリプトを公開された。
★修正(2004年5月8日)
2004年2月25日にスーパーニッポニカProfessional(2004年版)が発売された。
スーパーニッポニカToolkit 1.05では変換できないので注意すること。
百科項目を含む22万語(広辞苑、大辞林クラス)の国語辞典。 筆者好みの辞書なのだが、残念ながらWindows 2000/XPでは動かず、 小学館のラインナップから外されている。 hishidaさんの大辞泉ToolkitとEB StudioでEPWINGに変換できるほか、 筆者作のCUIベース検索ソフトdaijisenを使えば 辞書データを変換せずにUNIXから検索できる。
・大辞泉Toolkit 1.04
[リンク]
・daijisen 1.0a
[リンク]
★追加(2004年7月24日)
2004年7月9日公開の大辞泉Toolkit 1.04では
標準の検索インタフェースにおいて緑色文字で表示される強調文字が
太字に変換されるようになった。
マイペディア98/99/PC Success版については、 hishidaさんのMyPaedia ToolkitとEB Studioを使えば マルチメディアデータも含めて変換できる。 2004年5月6日に発売された世界大百科事典付属版と 2004年6月18日に発売されたソースネクスト版は 世界大百科事典Toolkitで変換できる。
・MyPaedia Toolkit 1.18
[リンク]
・世界大百科事典Toolkit 1.01
[リンク]
★追記(2004年5月8日)
2004年5月6日に発売された「世界大百科事典第2版&マイペディア」
に含まれるマイペディアはMyPaedia Toolkit 1.18では動作確認されていない。
★追記(2004年5月25日)
世界大百科事典第2版付属のマイペディアは世界大百科事典と
同じフォーマットでコンテンツが格納されているようだ。
マイペディアのデータファイルを対応する世界大百科事典の
データファイルと同じ名前にリネームしてから
世界大百科事典Toolkitを実行することにより
図版を含めて変換に成功したという報告が
EBシリーズ・サポート掲示板に上がっている。
残念ながら、以前のマイペディアにあった
音声や動画のコンテンツは削除されているらしい。
★追記(2004年6月20日)
ソースネクスト版の登場に合わせて記述を変更した。
★追記(2005年2月19日)
世界大百科事典Toolkitのソースネクスト版対応に合わせて記述を変更した。
イーストの辞書ブラウザDTONICを採用したシリーズ製品で、 EPWINGや電子ブックにない新明解国語辞典がある。 hishidaさんのDTONIC ToolkitとEB StudioでEPWINGに変換することが可能だ。 実際の作業は、DTONIC Toolkitで辞書ファイルをタグ付きの プレーンテキストとして出力し、それをEB Studioが認識できる タグ形式に変換し、その後EB StudioでEPWINGにするという手順になる。 対応済みタイトル以外は自分でタグ変換ルールを書く必要があるが、 実際のデータを見ながらであればそれほど難しい作業ではない。
・DTONIC Toolkit 1.11 [リンク]
学研国語大辞典、学研漢和大辞典、全訳用例古語辞典を含む統合辞典。 入手しやすい電子化された古語辞典はこれぐらいしかない (付属の電子ブックに同辞典を収録した電子ブックプレーヤはある)。 hishidaさんのSuper日本語大辞典 ToolkitとEB Studioにより マルチメディアデータも含めて変換できる。
・Super日本語大辞典 Toolkit 1.05 [リンク]
スーパーアンカーは楽しむ辞典シリーズの英和・和英辞典であり、 収録語数は少ないが文法や用法を学ぶための辞書として評判がよい。 NOMADさんのスーパーアンカー変換スクリプトと EB StudioでEPWINGに変換できる。
学研マルチメディア辞典は小型国語辞典に百科項目を追加したマルチメディア辞典で、 新版ピーシー・サクセス創刊号(静岡版)の付録についたものだ。 新世紀ビジュアル大辞典から付加機能と 一部のマルチメディアデータを省略したものであるらしい。 辞書としては子供向けで、大人にはやや物足りない印象だ。 スーパーアンカー変換スクリプトとEB StudioでEPWINGに変換できる。
・スーパーアンカー変換スクリプト 1.11 [リンク]
日英独仏伊西蘭丁瑞芬諾中の12か国語、計18冊の辞書を収録した辞典。 英和・和英には研究社新英和・和英中辞典を採用している。 Inoue N.さんのCDW2EPWでEPWINGに変換できるはずだが、 現在販売されているハイブリッド版(※5)では 動作確認されていない。
※5: 現在販売されている製品は「ハイブリッド版 12か国語大辞典」 という名前になっており、後述のロボワード版であるらしい。 「12か国語電子辞書」との関係は不明。
・CDW2EPW 1.1 [リンク]
EB Studio単体でEPWINGに変換できる。 要望が多いらしくEBシリーズ・サポートページに詳細な解説がある。
・EB Studio実践編:『英辞郎』のEPWING化 [リンク]
★追記(2004年11月14日)
2004年11月10日公開の英辞郎Ver.80でデータ仕様が一部変更された。
現在公開されているEB Studioに付属の作業環境定義ファイルeijiro.ebsで
正しくEPWINGに変換できるかどうかは確認されていない。
★追記(2005年2月19日)
EBStudio 1.64a以降では英辞郎Ver.80形式に対応している。
2月28日発売の書籍版英辞郎IIも1.64a以降であれば変換できると思われる。
国立国語研究所資料集14『分類語彙表 増補改訂版』付録CD-ROM。 辞書ソフトではなく書籍版の内容をそのまま収録したPDF文書だが、 hishidaさんの分類語彙表ToolkitとEBStudio、xdoc2txt、 茶筌(ChaSen)、Perlを使ってEPWINGに変換できる。
・分類語彙表 Toolkit 1.0 [リンク]
冊子版のブリタニカ大百科事典(6万5千項目)に1万項目を追加した 大項目百科事典の「Britannica 2005 DVD/CD」(英語版)と、 この事典に基づいて作られ、さらに多数の項目を追加した小項目百科事典 「ブリタニカ国際大百科事典Quick Search Version」(日本語版)がある。 これらの関係は平凡社の世界大百科事典とマイペディアの関係に近い。 Quick Search Version(2001/2003/2004年刊行版)は hishidaさんのブリタニカ国際大百科事典ToolkitでEPWING化できる。
・ブリタニカ国際大百科事典 Toolkit 1.01
[リンク]
・『ブリタニカ国際大百科事典Quick Search Version』の解析情報
[リンク]
★追記(2004年5月9日)
2001年発行のブリタニカ国際大百科事典Quick Search Version(日本語版)の
解析情報がEBシリーズ・サポートページで公開された。
本文は暗号化されたHTMLテキストであり、
Everest.ddfというファイル(164MB)にすべてが含まれている。
このファイルは圧縮されておらず、
0xffとXORすることでプレーンテキストが取り出せる。
★追記(2004年5月28日)
2001年発行のブリタニカ国際大百科事典Quick Search Version
(2001年刊行の日本語版)および冊子版の国際大百科事典に付属の
Windows対応小項目版をEPWING化するToolkitが公開された。
★追記(2004年6月14日)
2004年6月7日リリースのブリタニカ国際大百科事典Toolkit 1.01で
Quick Search Version 2004年版もEPWING化できるようになった。
2003年版は現在のところ検証されていない。
★追記(2004年11月14日)
ブリタニカ国際大百科事典Toolkit 1.01で
Quick Search Version 2003年版もEPWING化できるという情報が、
2004年9月2日にEBシリーズ・サポート掲示板に投稿された。
★追記(2005年2月19日)
Britannica 2005 DVD/CD(英語版)が発売されていたのに合わせて修正。
以下の辞書についてはスーパーアンカー変換スクリプトを開発されたNOMADさんの サイトにあるRubyスクリプトとEB Studioを使ってEPWINGに変換できる。
・NOMAD's homepage [リンク]
そのほかにも、以下の辞書についてはEBシリーズ・サポートページの 「変換スクリプト集」に変換スクリプトもしくは変換参考事例がある。
・EBシリーズ・サポートページ/変換スクリプト集 [リンク]
上記COBUILDの旧版にあたるCollins COBUILD on CD-ROM Ver.1.2については DDwinの作者草本和馬さんによるDicCreator for COBUILDが利用できる。
・DicCreator for COBUILD [リンク]
Windows CEの辞書ブラウザPenDicの作者であるpalm_penguinさんのサイトでは、 ブックシェルフ2.0のプログレッシブ英和辞典をEPWINGに変換する方法を紹介している。 これを行うには付属の検索ソフトからスクリプト操作による 自動カットアンドペーストでテキスト化・HTML化し(数十時間かかる)、 その後EB StudioでEPWINGに変換する必要がある。
・PenDicの使い方/辞書データ作成編-プログレッシブ英和辞典 [リンク]
★追記(2004年1月18日)
NOMADさんの各種変換スクリプトについての記述を独立させた。
以下のタイトルは現在のところEPWINGに変換できないため、 UNIXの辞書ブラウザでは利用できない。 解析にチャレンジしたいユーザのためにタイトルを挙げておこう。
マイクロソフトの百科事典および国語、英和、和英ほかの統合辞典。 ブックシェルフ1.0/2.0は小学館との共同開発で、 電子化されたプログレッシブ英和・和英辞典はこの製品しかない。 現在のブックシェルフ3.0は研究社新英和・和英中辞典なので、 あえてブックシェルフから変換するメリットはない。 圧縮されているうえ本文とインデックスが一体であり、解析はむずかしいが、 ブックシェルフ2.0に含まれるプログレッシブ英和辞典は 前節「その他」で述べた方法でEPWINGに変換できる。
★追記(2003年12月30日)
エンカルタ2002以降およびブックシェルフ3.0は
エンカルタ98やブックシェルフ1.0/2.0とフォーマットが異なっており、
どうやらMicrosoft HTML Help 2.0形式で作られているらしい。
この形式についての部分的な内部情報は以下のサイトにある。
・Microsoft's ITOL/ITLS format [リンク]
BTONICはDTONICの生みの親であるイーストが提唱する新しい辞書フォーマットだ。 XMLベースで記述した共通ソースからWebコンテンツや ローカルなBTONICクライアントで検索できるコンテンツを生成できる。 三省堂はEPWINGやDTONICシリーズから順次撤退し、 今後はBTONIC形式を採用するものと思われる。
★追記(2005年3月7日)
BTONIC形式の辞書をテキスト化するスクリプトがNOMADさんのサイトで公開された。
EPWING化のためのスクリプトは当面は作成する予定がないとのこと。
EPWING化を行うには、製品付属のxslファイルを参考に
EBStudio用のxslファイルを作成し、xslプロセッサにかけて
EBStudioの入力となるHTMLファイルを作成する必要がある。
・BTONICテキスト化スクリプト [リンク]
スーパーアンカー英和・和英辞典を除いて変換できないが、 辞書フォーマットは同じ(GDBase)と思われるので、 NOMADさんのスーパーアンカー変換スクリプトを 改造すれば変換できるはずだ。
★追記(2004年1月13日)
スーパーアンカースクリプトを改造してパーソナル辞スパ21を
EPWINGに変換する方法がEBシリーズ・サポート掲示板に掲載された。
変換できるのは本文のみであり、外字には対応していない。
システムソフト電子辞典シリーズの開発者がスピンアウトして作った製品。 辞書フォーマットはシステムソフト電子辞典シリーズと異なる。 このシリーズでしか入手できない辞書が存在しないため、 解析できてもメリットはさほど大きくない。 2003年10月25日、fj.comp.applications.dictionaryにおいて dessedの藤井宏憲さんが圧縮データの伸張に成功したと報告されている。
★追記(2003年12月31日)
「EPWINGに変換できないおもな辞書」にロボワード以降の項目を追加した。
画面上の単語にマウスカーソルを置くと検索窓がポップアップして 単語の意味を知らせてくれる辞書製品。 収録辞書には以下のものがあり、 とくに研究社新英和中辞典第7版/新和英中辞典第5版は 現在のところほかでは入手できない。 なお、Windowsの辞書ブラウザ Jamming (シェアウェア)はロボワードの辞書データに対応している。
★追記(2004年1月15日)
研究社新英和中辞典第7版/新和英中辞典第5版は
2004年2月6日にシステムソフト電子辞典シリーズの1つとして
ロゴヴィスタからリリースされることが発表された。
このシリーズで出るということは、
オリジナルのEPWINGコンテンツが存在している可能性が高い。
そのうち研究社自身からEPWING製品として販売されるかもしれない。
★追記(2004年1月16日)
ロボワードの辞書コンテンツをテキスト化するツールDeredが
Suzutoさんにより公開された。
・Dered (DEcode Roboword Electric Dictionary) [リンク]
★追記(2004年2月3日)
ロボワードの辞書コンテンツのうち、いくつかのものは
Deredによってテキスト化できないことが判明している。
旧版であるロボワードV3の付属辞書やステッドマン医学大辞典第6版などが
これに該当する。
画面上の単語をクリックすると検索窓がポップアップして 単語の意味を知らせてくれる辞書製品。 ジーニアス英和/和英辞典、明鏡国語辞典、ジーニアス+明鏡国語、 マイペディア、知恵蔵2004を収録した製品があり、 お試し版をダウンロードすれば1か月無料で利用できる。 ダウンロード/購入ページは本家Babylon.comとアルテックADSにあるが、 マイペディアおよび知恵蔵のセットはアルテックADSでのみ扱っている。
★追記(2004年7月24日)
ジーニアスに加えて明鏡国語辞典を収録した製品が登場した。
★追記(2004年11月14日)
マイペディアおよび知恵蔵2004を収録した製品が
アルテックADSの販売サイトに登場した。
日本語入力と連携し、日本語入力インタフェースで辞書引きができる辞書製品。 2004年2月27日発売。ジーニアス英和(第3版)/和英辞典に加え、 メジャーな辞書形式で入手できない明鏡国語辞典を収録している。 noptyさんの変換スクリプトでEPWINGに変換可能になったが、 ジャストシステムからのクレームにより現在は配布が中止されている。
ATOK2005では明鏡国語辞典・ジーニアス英和/和英辞典が/R2になったほか、 知恵蔵2005、マイペディア、角川類語新辞典がラインナップに追加された。 これまでの事情から考えて、EPWING化は困難と思われる。
・ATOK17用 明鏡・ジーニアス英和・和英変換スクリプト(配布中止) [リンク]
★追記(2004年6月12日)
noptyさんがEBシリーズ・サポート掲示板に
辞書ファイル(*.DRT)の解析情報を投稿された。
本文はUnicodeテキストであり、8文字ごとのくり返しで
nビット左ローテート(n=0〜7)されているもよう。
現在のところ本文の抽出に部分的に成功している。
★追記(2004年6月14日)
辞書ファイルから本文テキストデータを抽出するPerlスクリプトを
noptyさんが公開された。
★追記(2004年6月14日)
noptyさんのところで不完全ながら明鏡国語、
ジーニアス英和・和英をEPWINGに変換できたとのこと。
noptyさんのサイトで変換手順が示されている。
★追記(2004年6月20日)
noptyさんのスクリプトが完成に近づいている模様。外字への対応も間近い。
ただしマルチメディアデータの変換については今後の対応が必要。
★追記(2004年6月23日)
noptyさんのところにジャストシステムの法務担当部署からスクリプト
公開中止を求めるメールが届き、スクリプトの配布はいったん中止された。
上記メールの文面 はnoptyさんのサイト、変換スクリプトのページから読める。 法的な根拠を示さずに「不法」ということばを使っているなど問題はなくもないが、 この手の文章としてはまあ穏当なものといってよい。 他社(大修館)が著作権をもつコンテンツを二次利用する立場としては、 何のアクションも起こさずに大修館との関係を悪化させることは避けたいはずだ。 まずはこのような書面でスクリプト開発者に自社の姿勢を通知しておき、 次に著作権者である大修館と対応を協議するというのは順当な判断だ。
ここでキーとなるのは大修館の立場だろう。 スクリプトの配布を大修館が問題視しないことが明らかであれば、 ジャストシステムとしてはクレームをつける根拠がなくなる。 そもそも大修館はジーニアス英和・和英辞典をEPWINGや電子ブックのような 共通規格で商品化するなど、ユーザの利益を理解している出版社だ。 EPWING版ジーニアスのFAQ では旧版のDDwinで検索できない障害への対処として EPWING書籍改変ツールepwutilを使う方法を掲載するなど、 自社権利保護についても柔軟といってよい姿勢をもつ。
したがって、大修館にはまず明鏡国語辞典のEPWING化を真っ先に望みたい。 今回のスクリプト開発はこの辞典をより自由度の高い環境で利用したいという ユーザの要望から生まれたものだからだ。 次に、EPWING化が行われるまでの暫定的措置であってもよいから、 このようなユーザの自助努力によるコンテンツ利用を 何らかの形で容認していただきたい。 たとえば何らかの書式で大修館からの許諾を得ることと引き替えに EPWINGへの変換を許可するという方法も考えられるだろう。 いずれにせよ、大修館にはできるだけユーザの利益に配慮したうえで、 すべての関係者が満足できる方向での解決をお願いしたい。
★追記(2004年11月14日)
6月以降、noptyさんと筆者が協力して大修館書店にスクリプト公開の
許可を得るべく交渉を続けていたが、10月に入り大修館書店の法務担当部署より
Web上での公開は許可できないとの最終的な回答があった。
現在スクリプトはWeb上では配布されていないが、
noptyさんにメールで個別に連絡すれば入手可能な状況にある。
7〜8月に編集部と電話で交渉した際には何らかの歩み寄りを 期待させる返事をいただいていたのだが、 それ以降も含めてこちらから何度か送付したメールには反応がなく、 noptyさんが再公開を予告したメールを送付して初めて回答があった。 どうやら我々は迷惑ユーザとして放置されていたらしい。 編集部としても手に余る要求だったろうことは想像に難くないが、 こちらとしては礼も尽くし、理も尽くして交渉に臨んだのだ。 編集部に対して含むところはないが、 このように扱われたことは残念でならない。 大修館書店はEPWING版ジーニアス英和辞典の不具合修正にepwutilを利用したり 「事典現代のアメリカ」のオーサリングにEB Studioを採用するなど 懐の広いところをもつ出版社だが、 どうやら編集部間の足並みは統一されていないものと思われる。
なお、2004年11月14日にEBシリーズ・サポート掲示板に寄せられた nimnimさんの情報によると、ATOK17電子辞典セットの明鏡国語辞典には 100以上の欠落見出しがあり、また見出しや本文に含まれる 「麺」「醤」「叱」(の正字)がそれぞれ「黴」「耘」「召」に 化けた状態で収録されているとのことだ。 後発のBabylon Pro 5.0に搭載された明鏡国語辞典には 上記の見出しがあり、誤字も存在しないので、 この責任はジャストシステムに帰すべきものと思われる。 EPWINGに変換して利用する際には留意していただきたい。
★追記(2005年2月19日)
ATOK2005で辞書製品が拡充されたことに合わせて記述を変更。
見出し語数35万、用例数250万の大型英語辞典。 中世英語からの語義・語形の変遷や語源に詳しく、 可能なかぎり初出用例を採集している。 英語学や英文学をこころざす人には聖典。 CD-ROM版のV1.0はWindows 3.1/95対応のWindowsアプリケーションだったが、 V2.0以降はWebブラウザベースの検索インタフェースを採用しており、 辞書フォーマットも変更されているらしい。 V3.0以降ではハードディスクインストールが可能になった。
★追記(2004年2月6日)
V1.0の辞書データはoed2.datという600MB程度の単一ファイルだったが、
V3.0では複数に分割された拡張子.htmのファイルになっている。
この辞書データはおそらくHTMLベースだが、
gzipなどで圧縮できないほど圧縮されており、
またマニュアルの記述を信用するかぎり暗号化も行われている。
V3.0はハードディスクインストールが可能だが、
コンテンツ管理に悪評高いC-Dilla(SafeCast2とも)が使われており、
90日に一度はCD-ROMを読ませてアクティベートしなおす必要がある。
これだけ警戒厳重ということは解析も困難であるに違いない。
解析を試みるならV1.0を中古で探したほうがよい。
OED2の各バージョンについては以下のサイトが参考になる。
★追記(2005年2月19日)
V3.1が登場していたことに合わせて記述を修正。
・Oxford English Dictionary (OED) on CD-ROM [リンク]
ゲームソフトメーカーであるアートディンクから PlayStation2専用ソフトとしてリリースされた変わり種の辞書ソフトだ。 コンテンツとして20万語収録の講談社日本語大辞典GJを採用している。 かつて冊子版の講談社日本語大辞典に電子ブックが付属していたことがあったが、 現在は電子化された日本語大辞典はこのシリーズでしか入手できない。 メディアはCD-ROMでありUNIXからでも辞書データにアクセスできるが、 どうやら圧縮されているようだ。
カシオのIC辞書であるエクスワード・データプラスの追加辞書として CD-ROM媒体で販売されている辞書製品(一部はデータカードでも販売される)。 ラインナップは充実したものであり、旺文社全訳古語辞典第二版、 imidas 2004など他では入手できないコンテンツもいくつかある。 フォーマットについては未調査。
★追記(2004年11月14日)
2004年11月以降発売予定の製品を追記した。
★追記(2005年2月19日)
2005年2月発売予定のマクミラン英英辞典を追記した。
デアゴスティーニ・ジャパンから刊行されている週刊ピーシー・サクセス シリーズには付録としてWindows版のCD-ROM辞書がついていることがある。 創刊号は500円、それ以外の号でも1400円程度で、 辞書コンテンツを安価に入手できるというメリットがある。 以下に示したバックナンバー(BN)情報は2004年11月14日現在のものだ。
・デアゴスティーニ・ジャパン [リンク] (バックナンバー在庫情報あり)
★追記(2004年2月2日)
第2期ニュー・ピーシー・サクセスシリーズは2003年11月で刊行が完結している。
次期シリーズ(出るかどうか不明だが)の刊行が開始されると
第1期シリーズと同様にバックナンバー情報にアクセスできなくなる可能性が高い。
興味のある読者はいまのうちに入手しておいたほうがよい。
ピーシー・サクセス創刊号(2000年2月8日号, BN情報なし)。
付加メニューは省略され、図版はサムネイルのみとなっている。
mypaedia-fpwやMyPaedia ToolkitでEPWINGに変換可能。
ニュー・ピーシー・サクセス4号(2002年3月5日号, BNあり)。
内容は製品版とほぼ同じだ。
★追記(2004年1月18日)
Super日本語大辞典ToolkitとEB StudioでEPWINGに変換できる。
(記述を修正し忘れていた。)
★追記(2004年7月24日)
バックナンバー在庫復活!!
ニュー・ピーシー・サクセス12号(2002年4月30日号, BNあり)。
12cm CD-ROMだが内容は電子ブック版(S-EBXA)であり、
和英は読みからしか検索できない。
用意されているインデックスは前方一致インデックスのみ。
ニュー・ピーシー・サクセス26号(2002年8月6日号, BNあり)。
筆者は内容を確認していない。
新版ピーシー・サクセス創刊号(静岡版)(2003年10月7日号, BN不明)。
スーパーアンカー変換スクリプトでEPWINGに変換可能。
静岡以外の地域からでもバックナンバー取り寄せ可。
新版ピーシー・サクセス(静岡版)(2003年12月9日号, BN不明)。
12cm CD-ROMだが内容は電子ブック版(S-EBXA)。
検索は表記形インデックスのみであり読みからは検索できない。
図版も省略されている。
静岡以外の地域からでもバックナンバー取り寄せ可。
リンク「電子辞書の情報」でUNIXで使える辞書を紹介しているが、 情報はあまりアップデートされていない。 メーリングリストに最新情報が流れることがある。
・電子辞書オープンラボ [リンク]
★追記(2004年5月8日)
以前はメーリングリストの記事をWebから読むことができたが、
現在はアクセスできないようになっている。
★追記(2004年7月24日)
メーリングリストはネットニューズとして購読可能だ。
サーバはnews.ring.gr.jp、ニューズグループはring.openlab.edict。
カテゴリfjのニューズグループ。 ふだんの投稿は少ないが、話題によっては急に流量が増える。 知りたいことを質問するのに適している。 Googleグループからも読める。
・Googleグループ [リンク]
EB Studio作者のhishidaさんのサイト。 独自フォーマット辞書のEPWING化について豊富な情報がある。 サポート掲示板も有用。
・EBシリーズ・サポートページ [リンク]
辞書関係の情報交換を行うために作られたWikiサイト。 電子辞書オープンラボのコンテンツの一部はこちらに移行されつつある。
・辞書関係Wiki [リンク]
ユーザ側でそれなりの手間をかける必要はあるにせよ、 現在はUNIXでもさまざまな辞書コンテンツが利用できる状況にある。 往時とくらべると百科事典など大規模タイトルの価格低下も著しい。 知識というものがこんなに安価でよいのかと心配になるほどだ。 辞書好きなユーザにとって、かつてないほど幸せな時代がここにある。 読者の方々もぜひ辞書引きライフをエンジョイしていただきたい。