<はじめに>
「正假名遣ひ」とは何ぢやらう。實は「舊假名遣ひ」とも呼ばれてゐるのぢやが、古文・漢文の授業で習つたものを思ひ浮かべて戴き度い。「ゐ・ゑ」の文字や「けふ(きょう)」「てふてふ(ちょうちょう)」などは覺えてをるぢやらう。尤も、「正假名使ひ」と現代語は共存出來るのであつて、「正假名使ひ」が昔の文章の爲だけにあるのではないのぢやな。然もコンピューターの進化により現在では表示出來る漢字數も格段に増え、WEB上でも戰前の文豪達の「正假名使ひ」による文章がお目見えしてゐる。
言葉は慣れの問題であり、慣れさへすれば「正假名使ひ」の文章も讀めるやうに成るし、また書くことも出來るのぢや。まづは「正假名使ひ」文章を讀んで見よう。其の際「やるま君(正⇒新)」が讀解の一助と成らう。そして「正假名使ひ」の文章を書き度くなつたら「まるや君(新⇒正)」で變換して見られたし。はじめは變換だけであつても慣れて呉ればだんだん使ひ方も分かつてくるぢやらう。そして自分で書き度くなつてきたら其の時は勉強して貰ひ度い。
「正假名使ひ」に對する興味への一助と成れば幸ひである。
<変換ロジック>
- 基本的な考え方:
動詞の活用語尾は「漢字+活用語尾」の場合、漢字の活用種類を登録することにより「正⇔新」仮名遣いの変換はある程度規則化が可能。漢字の「正字体⇔新字体」変換と同時に活用語尾の変換を行なうことでスクリプト高速化にも寄与する。「ひらがな」の語句(単語)の「正⇔新」仮名遣いは個々に熟語登録をしない限り不可能。従い、本スクリプトでは大きく分けてこの2つを組み合わせて相互変換させている。前者は『アルゴリズム』、後者は『データベースの良し悪し(登録数)』により変換成功率が左右されることになる。
本スクリプトでは手抜きを行なっているが、か行・さ行などの区別も行なった動詞活用表、新字・正字対応熟語表、単語・熟語データベース、に加え意味(品詞)解析まで行なえば完璧であろう。ここまでくると専用IMEとなってしまう。
- 漢字の「正字⇔新字」の対応表:
複数の「正字」が一つの「新字」に対応しているケースもある。この場合「新⇒正」変換で誤変換は避けられない。従い、「熟語」登録により出来る限り誤変換を避ける。尚、「新字⇒正字」変換では「異字」「俗字」への変換は出来る限り行わない。
- 「正字⇔新字」動詞活用語尾変換:
「は」⇔「わ」、「ひ・ゐ」⇔「い」、「ふ」⇔「う」、「へ・ゑ」⇔「え」、「ほ」⇔「お」、「ぢ」⇔「じ」の相互変換を動詞の活用登録により行う。活用語尾の「は(わ)/へ(え)」と助詞の「は/へ」の判別は難しく試行錯誤している(誤変換あり)。尚、「漢字+活用語尾」となる「行ふ/行う」は正しく変換できるが、語幹に仮名を含む「行なふ/行なう」は上記アルゴリズムでは変換できないことになる。従い、一部の単語は別途登録することで対応する。変換できない場合、変換前の文章は「送り仮名」を出来る限り短くする(短縮形を用いる)必要がある。
ver0.3より「おこなう⇔おこなふ」などの「ひらがな」の「は」行四段動詞も一部登録(誤変換の元か)。
- 四段動詞未然形活用語尾(助動詞「う・よう」に続くもの):
「かう」⇔「こう」、「がう」⇔「ごう」、「さう」⇔「そう」、「たう」⇔「とう」、「なう」⇔「のう」、「はう」⇔「ほう」、「ばう」⇔「ぼう」、「まう」⇔「もう」、「らう」⇔「ろう」の相互変換。
- 「は」行四段動詞連用形活用語尾「い/ひ」+「て(助詞)」:
「覗(のぞ)く」「覗(うかが)う」のように同漢字で別の語となるケースでは「覗いて」を「覗ひて」に優先させる為の登録を行い「覗(のぞ)いて」と解釈させる。
- 四段動詞連用形+「よう/やう」(名詞『様』に続くもの):
「よう」⇔「やう」の相互変換。連体形に続く名詞「よう/やう」は後述の一般変換で対応(スクリプト高速化のため)。
- 「は」行四段動詞連用形の「う」音便(「た・て」に続くもの):
「新⇒正」変換時、「は」行四段動詞で 問うて⇒問うて(× 問ふて/○ 問ひて→問うて)で無変換。スクリプトでは登録した全ての「は」行動詞で漢字直後の「うた」「うて」はそのままとしている。「た・て」で始まる名詞句に続く場合は誤変換となる(「ふ」に変換してしまう)。
- 活用語尾の促音便「つ」⇒「っ」:
「正⇒新」変換時、漢字の直後の二文字を評価し「つた」⇒「った」、「つて」⇒「って」、「つち」⇒「っち」(言っちまえ)、「つと」⇒「っと」と強制変換。
- 「よう」⇒「やう」(様)変換:
助動詞「よう」は未然形(四段動詞のみ「う」となる)に続き「よう」のままであるが、「様」と書く「よう(新)/やう(正)」は用法により連用形・連体形(助詞「の」含む)に続く。従い、現→正での「やう」への変換は直前の仮名文字(語幹の段判定)及び直後の助詞の使われ方により判定する。「〜ように」「〜ようも」「〜ようは」等は「やう」にするなどであるが、実用文での変換成功率は結構高いようだ。
(無作為抽出した170の用例で100%成功⇒「連体形(助詞「の」含む)+ように」がもっとも使用頻度高い)
- 一般音便対応表:
「そう」⇔「さう」、「きょう」⇔「けふ」など。単純な相互変換を行なっており誤変換も起こる。
- よく使われる表現の対応表:
「たまたま」⇔「偶々」、「とほり」⇔「とおり」、「つかふ」⇔「つかう」、「ている」⇔「てゐる」、「となる」⇔「と成る」、「なつた」⇒「なった」などを登録。(ここでの登録数に比例して変換成功率が高まるが、JavaScriptでは遅くなるので頻出表現に限定)
- 「漢字熟語」変換:
「新⇒正」変換の為の熟語データベース。「新漢字」一字が複数の「旧漢字」に対応している為のもの。
- 「新⇒正」変換:
促音・拗音の小さい字はすべて大きい文字にする。「っ」⇒「つ」など。カタカナは変換せず。
- 「正⇒新」変換:
「ゐ」⇒「い」、「ゑ」⇒「え」の強制変換。促音・拗音の判定は難しく、擬音語・擬態語を中心に登録した。特に漢字を使わない文章で誤変換あり。
- 「平仮名動詞」変換:
動詞の活用種類・行種別を登録することにより「平仮名動詞」も相互変換させる。きりが無いので「は行」動詞を中心に頻出語のみ登録。頻出語のみの登録でも変換成功率は体感できる程度に向上したのじゃな。(ver0.3より)
最大の欠点は充分な「単語・熟語」データベースがないことであり、特に漢字を使わずひらがなを多用した文章は「誤変換」、及び「変換すべきものを変換しない」ことが多くなる。従い、漢字を使えるときは出来る限り漢字を使うこと、また活用語尾は出来る限り短縮形を使うことが「新⇒正」変換での変換成功率に寄与する(頻出語のみ登録)。「正仮名遣ひ」を標榜するサイトの文章であれば漢字を多用しているケースが多いので、「正⇒新」で変換した文章を再度「新⇒正」に変換しても元の文章に近いものになる。「この程度の」スクリプトでも意外に変換成功率が高くなるのである(成功率90%以上か?⇒ver0.3で更に成功率が上がっているぞ)。
※ 完全な変換は不可能ゆえ悪しからず...
動作確認:
IE4.01SP1/5.01/5.5/5.5SP1/5.5SP2+IE4互換モード、IE6.0、NC4.01e/4.04j/4.05j/4.51j/4.6j/4.7j
Netscape6 PR3j/6.0J/6.0e/6.01e、Mozila M18e (全てWin95/98版)
<注意>
- 「用ゐる」を「用ひる」としている文章もあり(芥川龍之介)。誤用のような気もするが「正⇒新」変換に対応させた。「新⇒正」では「用ゐる」に変換。
- 「やう(正)⇒よう(新)」で「よう」に変換しない場合は、変換ロジック上誤変換するケースも勿論あるが、元文章での誤用(助動詞「よう」であるべきもの)も疑ってみること。
- バージョンが上がる毎に変換速度は遅くなる。正確さと速度とは相反するのが宿命...
- NC4.x では、画面下に何も記載されていない部分が続くが気にしないように。(Layerを使っているからじゃ)
<参考資料>
- 各種、国語辞典・漢和辞典・古語辞典。「岩波国語辞典第二版第七刷(1976年7月20日発行)」がメイン。
- 言葉 言葉 言葉の一連の文章、及びそのリンク先
<開発履歴>
最終更新日:2002年7月28日 by
Ojisam