※文字コードについては「読む・書く」の頁を参照。
また、せっかく入手したテキストも、HTML形式で書かれているために、余分なスペースや改行が入っていたりして、利用がしにくいことがある。
本ページでは主にMacユーザーを対象に、モンゴル語テキストを扱いやすくするための、自作のテキスト処理スクリプトを紹介する。
本ページのスクリプトを利用するためにはMacJPerlが必要となる。ダウンロードして任意のフォルダにインストールすること。
スクリプトはドロップレット形式で保存してあるので、ファイルをドラッグ・アンド・ドロップするだけで,処理ができる。
モンゴル語キリル文字フォントにはMongolianLanguageKitあるいはモンゴル国家規格MNS4331-96に定められたキリル文字コードに準ずるものを使用していることを前提とする。
ファイルはStuffIt形式で圧縮してあるので,StuffIt
Expanderで解凍する。
用法の限られている方は下のスクリプトをご利用下さい。HTML_CTTtoText_UB(2001.07.24)
インターネット上のモンゴル語テキストのほとんどは、WINDOWS用のコードで記述され、HTML形式で保存されている。このスクリプトは余分なHTMLタグを除去した上でテキスト部分を整形し、MAC用コードに変換されたテキストファイルを生成する。
アイコンにドラッグ・アンド・ドロップすると、拡張子名が".txt"に変更されたファイルが、同一フォルダ内に新しく生成される。![]()
CyrillicCode_Autochanger(2001.07.26 Ver.Up!!)
ドラッグ・アンド・ドロップしたTextファイル内のキリル文字コードを判別し,変換する。
ドラッグ・アンド・ドロップで、ダイアログ・ウィンドウが開くので、変換したいコードのボタンを押す。
![]()
判別にはキリル文字の大文字部分のコードを利用するので,大文字が一つも使用されていないテキストでは自動判別できない。テキストに小文字しかない場合、ダミーで一文字入れておくこと。
- Macコード → Winコード(_CTT.txt), JISコード全角ロシア文字(_JIS.txt)
- Winコード → Macコード(_UB.txt), JISコード全角ロシア文字(_JIS.txt)
- JISコード全角ロシア文字 → Macコード(_UB.txt), Winコード(_CTT.txt)
※カッコ内は新しいファイル名に付加される文字列。
履歴 7.26 HTMLタグの有無を判別し、除去するかどうか選択できるようにした。
7.24 公開
UB<->CTT(2001.07.24)
MAC用のコード<->WINDOWS用コード変換スクリプト。Text形式のファイルをドラッグ・アンド・ドロップすると、拡張子名が"_CTT.txt"あるいは"_UB.txt"に変更されたファイルが、同一フォルダ内に新しく生成される。
UB<->JIS(2001.07.24)
MAC用のコード<->JIS全角ロシア文字コード変換スクリプト。Text形式のファイルをドラッグ・アンド・ドロップすると、拡張子名が"_JIS.txt"あるいは"_UB.txt"に変更されたファイルが、同一フォルダ内に新しく生成される。
※日本語と半角キリル文字の混在しているファイルの変換は出来ない(日本語部分が文字化けする)。
同一フォルダ内に出力後のファイル名と同一名のファイルがある場合、変換は行われない。
ご意見・質問・バグレポート等はこちらまで。