Time-stamp: "Feb 11 2004"

Canna 英語綴り辞書

Unix で使用される日本語入力方式の一つ Canna で使う英語つづり辞書について説明します。

Canna と英語の綴り

Canna には英語の綴りのままで入力・変換できる辞書が無いようです。「英語の綴りのままで入力・変換」とは、 「akusesu」とローマ字綴りで入力するのではなく「access」と英語綴りのままで入力して「アクセス」と変換することです。

これは別の日本語入力方法 SKK では標準で可能でした。POBox では私の方で辞書を改変して、できるようにしていました。

Canna でもそれを可能にする辞書を作成しました。 作成方法をここで説明します。

作成方法

Canna はユーザ辞書を複数持つことができます。その一つとして skkalpha というものを作って使用することにします。

ダウンロード

canna-alphabetdic-20040210.tar.bz2 (34KB, 2004-2-10)

必要なもの:

このほかにも SKK-JISYO.L を使用しますが、これは自動的にダウンロードされます。

動作を確認した環境:

作成手順

  1. 上のアーカイブを展開して、できたディレクトリの中で
    $ make
    
    とすると SKK-JISYO.L.gz を自動的に取得し、Canna テキスト辞書を作成します。少し時間がかかります。
  2. 作った辞書をユーザ辞書として登録します。
    $ mkdic skkalpha
    $ addwords skkalpha < skkalpha.ctd
    
  3. その辞書を使えるように設定します。設定ファイルの .canna を書き換えます。
    $ vi ~/.canna
    
    以下の一行を追加します。「+」は入力しないでください。
      :user  "user"
    + :user  "skkalpha"
      )
    
  4. これで使えるはずです。
以上の記述は かんな指南 を参考にしました。

おまけ

私は短縮表記として以下の語句も登録しました。 追加はコマンドラインから可能です。

$ addwords user < add.txt
こんせ #T35 コンセンサス
pりお #T35 優先順位 プライオリティ
db #T35 データベース
でふぁ #T35 デフォルト
めm #T35 メモリ
sys #T35 システム
pkg #T35 パッケージ
hd #T35 ハードディスク
hっd #T35 ハードディスクドライブ
mb #T35 メガバイト
gb #T35 ギガバイト
にゅ #T30 入力
しゅ #T30 出力
のう #T35 能力
ひつ #T07 必要
ろめじ #T35 ローマ字
えっr #T35 エラー
ぶf #T35 バッファ
src #T35 ソース ソースコード
rel #T30 リリース
う゛ぇr #T35 バージョン
もd #T35 モジュール
cり #T35 クライアント
srv #T35 サーバ
せrv #T35 サーバ
cmd #T35 コマンド
あrch #T35 アーキテクチャ
gfx #T35 グラフィクス グラフィックス
れl #T30 リリース
じg #T35 治具
こmぱny #T35 カンパニー
あっdr #T35 アドレス
ここおん #T35 コクーン
みっdれわれ #T35 ミドルウェア
でv #T35 デバイス
こでc #T35 コーデック
ごてぃc #T35 ゴシック
うにこで #T35 ユニコード
pれpろ #T30 プリプロ
えxpろれr #T35 エクスプローラ
fれぃびりty #T35 フレキシビリティ
いぇん #T35 円

これにより、以下のように変換できます。

fileninyusimasita.
↓
ファイルに入力しました。

作ったときの話

私が Canna をつかい始めたとき、英語綴りのままでは入力できないことがわかりました。 辞書さえ用意すれば使えるだろうと思い、 辞書に語句登録して試したところ、「file」→「ファイル」は変換できませんが、「pkg」→「パッケージ」は変換できました。 どうも辞書による変換の前に「file」は「ふぃれ」にひらがな変換されているようです。

ならば、辞書に「ふぃれ」で登録してそれから「ファイル」と変換されるようにすればいいのでは? と推理して やってみるとできました。 blank は 「bらんk」で登録すれば「ブランク」に変換できるはずと思い、試すと、これもできました。

以上の現象は私が Canna クライアントとして使用している YC で確認しました。X Window System 上の Mozilla で google.co.jp の検索窓に Shift + Space して入力したとき正常に変換できることも確認しました。

ですが、「bらんk」などの まるで文字化けのような語句で登録するのはイレギュラーな気がします。Canna に付属している crxdic というコマンドでは扱えないようです。

問題点

品詞は全て #T35 (Canna の分類法による「普通名詞」) にしています。カタカナ語はその殆どが名詞であるため、これでもほぼ問題はありません。ですが、「オープンする」など「する」の付くことができる単語は #T30 という品詞を指定したほうがよいようです。品詞については今後対処する予定です。 (参照: かんな指南) 2004-1-26 対処しました。

「file」で変換しようとすると「ファイアー」という変換候補が出てきます。これは、「file」「fire」どちらも ひらがな変換すると「ふぃれ」になってしまうからですね。Canna は元々 ひらがなからの変換しか想定していないので、これは仕方ありません。とはいっても、このような ひらがなの重複が起きるのは r[aiueo] と l[aiueo] だけだと思います。

ところで Canna は「la」を「ら」と変換しますが、これは珍しいのではないでしょうか。MS-IME では「la」は「ぁ」に変換されます。

ほかにも、「バグが出た」という文章を入力するために「buggadeta」と入力すると、 「ぶっが出た」と表示され「bug-ga」のところで区切ることができません。このときは「bug」と「gadeta」を別々に変換するよりほか無いようです。「testsitekakunin」(テストして確認) の「test-site」の部分や「commenthaatode」(コメントは後で)の「comment-ha」の部分も分けて入力する必要があります。


itouh