第3・第4水準漢字の扱い方
「文字参照」編

 

 

■ 「文字参照」とは?

 

「HTML2.0(RFC1866)」で定義されているHTML文法の一つで、「文字参照(character references)」の「&○○○○;」記述にて、フォントのコードポイントをダイレクトに文字指定するというモノです



原理としては、携帯電話でのホームページに多用されている絵文字の指定の仕方と同じです

□ NTT DoCoMo の場合

DoCoMo Net - iモード対応絵文字絵文字とは のページを見ていただければ判りますが、3種類あります

  • Shift-JISのバイナリコード入力(全機種にて推奨)
    (=Shift-JISエンコード上での「外字」による表記)
  • Unicodeのテキスト入力(iモード対応HTML4.0対応機種以降)
    (=Shift-JISエンコード上での『文字コード(Unicode)16進法表記 数値「文字参照」』)(※)

※ HTMLの世界では、全く普及しなかった(=失敗作であった)『HTML4.0規格』にて制定された表記方法であり、今現在一般的に浸透している 『HTML3.2互換規格』で使用される事は全くありません

  • Shift-JISのテキスト入力(推奨しません)(※)
    (=Shift-JISエンコード上での『文字コード(Shift-JIS) 10進法表記 数値「文字参照」』)(※)

※ 「各種携帯電話」や「Internet Explorer ~3.x」「Netscape Navigator ~3.x」では、文字参照コードの参照コードをShift_JISコードポイントとして処理するものの、「Internet Explorer 4.0~」や「Netscape 6.0~」では『HTML4.0規格』での取り決めによって文字参照コードの参照元コードがUnicodeコードポイントとして処理されるため、「i絵文字」(NTT DoCoMo純正)「i-mode絵文字 対応外字データ」「i -文字」「けーたい絵 文字(i-MODE/EZweb/H"・AirH")」などの外字フォントをインストールした環境 上でも「i-MODE絵文字」は表示出来ません(文字化けします)

よって、推奨されていないのでしょう・・・

au by KDDI ・TU-KA の場合

「第2世代携帯電話(PDC方式)i-MODE規格(C-HTML)」で記述しておけば、EZweb でも問題無く携帯電話向けホームページで絵文字を表示出来ます

  • 「NTT DoCoMo の第3世代携帯電話(W-CDMA方式のFOMA)端末」や「au by KDDI の第3世代携帯電話(CDMA2000 1x方式)端末」では『WAP2.0規格準拠』となり、電話端末搭載ブラウザソフトが「2.5世代携帯(cdmaOne)対応版EZweb規格 (WAP1.0)」「第2世代携帯電話(PDC方式)i-MODE規格(C-HTML)」「XHTML」の3種類に対応しています

iモード対応ホームページとの互換性

  • 「2.5世代携帯電話(cdmaOne方式)端末」や「TU- KA(PDC方式)」で EZweb(WAP1.0) を使用する場合でも、2001年11月からKDDIのEZwebゲートウェイサーバーに『「第2世代携帯電話(PDC方式)i-MODE規格(C- HTML)」→「EZweb(WAP1.0)規格」変換機能』が付きました

HTMLコンテンツ変換機能

「iモード・オプション」のサポート

SoftBank(旧 vodafone) の場合

「非漢字+第1・第2水準漢字文字集合」については、「第2世代携帯電話(PDC方式)i-MODE規 格(C-HTML)」で記述しておけば表示出来ますが、絵文字については他社規格からの変換機能が無いので「Yahoo!ケータイ(旧 Vodafone Live!)以外にも対応出来る携帯電話向けホームページに絵文字を使用する」というのはいささか難しいかも

SoftBank Developpers Support Site > Web

J-FONT (Yahoo!ケータイ(旧 Vodafone Live!)(旧々 J-Sky Web) 絵文字外字フォント)

 

「文字参照(character references)」であれば、ホームページやリッチテキスト(HTML)形式メールにて、非漢字+第1・第2水準漢字文字集合(と、機種依存文字) には実装されていない文字種でも、ごくごく普通のJIS X 0208準拠の「Shift_JIS」「JIS(iso-2022-jp)」「EUC(euc-jp)」の文章内に組み込む事が出来ます

表示する側の環境に「第3・第4水準漢字などの文字集合対応フォント」が導入さ れていない場合、該当文字の部分は文字抜けしてしまいますが、Unicodeエンコード文章によって「第1・第2水準実装外漢字」を扱うよ りも文字化けのリスクが軽減されます(※)

※ 「Internet Explorer 4.0~」では、文字参照コードの参照元コードがUnicodeとして処理されますが、「Internet Explorer ~3.x」「Netscape Navigator ~3.x」では、文字参照コードの参照元コードをShift_JISコードとして処理されるため該当文字部分は「文字化け」「文字抜け」します

※ 「Netscape Navigator ~4.x」では、「Internet Explorer 4.0~」と同様に、文字参照コードの参照元コードがUnicodeとして処理されるという事にテクニカルノートではなっているのですが、実際には 「Netscape Navigator 4.x」では「文字参照」として「第1・第2水準実装外漢字」を処理する事が出来ず、該当文字のフォントが「?」(半角のQestion Mark)となります

であるので、「文字参照非対応ブラウザソフト」を使用している方でも文章の意味 が把握出来るように、

「第1・第2水準実装外漢字」をネット上で扱う場合に は、該当文字の後ろにふりがなを振るなどの配慮を必ずして下さい

 

さらに、

「Windows 95」「Mac OS ~9.x」「一部の Unix」のような古いPC環境では、素の状態(PCを購入したまま)であれば第3・第4水準漢字などを含むフォント(※)は入っていません

※ Mac OS 8.5~9.xの場合には、OSのCD-ROMなどから別途追加インストールする必要があります

「文字参照対応ブラウザソフト」を使用している場合でも、第3・第4水準漢字などを含むフォントが入っ ていない古い環境では、第3・第4水準漢字などは文字抜け(半角の空白に置き換わる)してしまうので読解不能な文章となってしまいます

「第1・第2水準実装外漢字」をネット上で扱う場合 には、該当文字の後ろにふりがなを振るなどの配慮を必ずして下さい

 

しかし、上記のような古いPC環境であっても、 Microsoft や Apple Computer などが Unicodeにおける第3・第4水準漢字などを含むフォント(※ 1)を無償配布していますので、それらをダウンロードしてくる(※2)事で、第1・第2水準実装外漢字が扱えるようになります

※1 第3・第4水準漢字だけではなく、世界中の主要言語の文字の包括した数万文字の文字集合を実装していますので、最新のPC環 境を使用している方も、ぜひダウンロードしておきましょう

※2 「Unicode ~3.1 UCS 文字集合対応フォント」の入手方法についてはこちらのページをご覧下さい

 

 

■ 対応アプリケーション

 

○ ブラウザソフト:

・・・など

≫ Unicodeの実装領域など、扱える文字の制約については、第3・第4水準漢字の扱い方 「Unicode」編のページをご覧下さい

 

○ メールソフト:「Internet Explorer 4.0 ~」のリソースに依存するリッチテキスト(HTML)形式メール対応メールソフト(※)や、Mozilla系ブラウザソフトのメール機能や「Opera 6.x/7.x」(5.0~?)などのブラウザソフトのメール機能

<主な対応ソフト>

  • 「Outlook Express 4.0 ~」「PostPet V3」「EudoraPro 3.0 ~」「Becky! Ver.1 / Ver.2」・・・「Internet Explorer」リソース使用
  • Mozilla系ブラウザソフトのメール機能
  • 「Opera 6.x/7.x」(5.0~?)

 

<主な非対応ソフト>

  • 「Netscape Messenger ~4.x」
  • 「PostPet 2001(2.0.x)」
  • 携帯電話のメール機能

 


< 注 意 事 項 >

メールの標準文章形式は「テキスト形式メール」です
受信側の方が「リッチテキスト(HTML)形式メール」非対応、もしくは「リッチテキスト(HTML)形式メール」には対応していても「文字参照」非対応 のメールソフトを使用しているケースもありえます
先方の対応文章形式を事前に確認しておきましょう!

 

送信されてきたメールの差出人が使用している
メールソフトの種類の確認方法

送信されてきたメールの「ヘッダ」(メールソフトとメールサーバーとがやり取りする情報)には、メールの差 出人が使用しているメールソフトの種類が基本的には記入されていますので、メールソフトで「ヘッダ」を表示して、先方のメールソフトが「リッチテキスト (HTML)形式メール」に対応しているかどうか事前に確認しておきましょう

  1. メールソフト上で、「ヘッダ」を確認したいメール文章を表示させます
  2. 「ヘッダ」を表示させます

    ツールバーのをクリック→をク リック→プロパティ窓にてタブをクリック

    • Mozilla系ブラウザソフトのメール機能の場合

    ツールバーのをクリック→をクリック

    • 「Opera」の場合

    メール画面の真ん中の水平線(「送信者」「宛先」「件名」「日付」表示欄)の右端にあ る「すべてのヘッダを表示」の文字 列をクリック

    (その他のメールソフトでも、大概のメールソフトでは似たような方法で「ヘッダ」が表示さ れます)

  3. すると、

・・・というような感じで「ヘッダ」の中身が表示されます

この中の「X-Mailer」項目が、メールの差出人が使用しているメールソフトの種類となり ます

ここに記入されているメールソフトが「リッチテキスト(HTML)形式対応メールソフト」であ れば、その相手には「リッチテキスト(HTML)形式メール」を送信しても技術的には大丈夫ですが、世の中には「リッチテキスト(HTML)形式メール」に対して嫌悪感を抱いているヒトが少なくありません

嫌悪感を抱いているヒトへいきなり「リッチテキ スト(HTML)形式メール」を送りつけると、そのメールは読まれること無く削除されるとか、目を通してくれたとしても無視されるなどといった事がありえ ますので、「リッチテキスト(HTML)形式メール」でメールを送っていいかどうか、相手の方への事前に許諾を取っておく必要があります


また、第1・第2水準実装外漢字を使用した場合には、その第1・第2水準実装外漢字に対応する フォントが必ずしも相手先のPCにもインストールされているとは限らない事を念頭に置いておく必要があります

 

リッチテキスト(HTML)形式メールに対応していないメールソフト(「Post Pet ~2.0.x」など)で「文字参照」を使用したリッチテキスト(HTML)メールを受信した場合でも、該当文字のフォントが「?」(半角のQestion Mark)となり、文末にHTMLタグが表示されるだけなので、ふりがなさえ振っておけば本文はきちんと読解出来ます

また、受信側の方が「リッチテキスト(HTML)形式対応メールソフト」を使用していなくても、 Unicodeにおける第3・第4水準漢字文字集合対応フォントが導入されている環境であれば、文字参照対応ブラウザソフトを利用して「第3・第4水準漢字」「第1~第4水準実装外漢字」を含んだ「リッチテキスト(HTML)形式メー ル」を表示させる事が出来ます

  1. 「Windows 95/NT4.0」以外のWindowsの場合には、インストールページを参照して「拡張子」が表示されるにWindowsの設定を変更します
  2. メールソフトを起動します
  3. 「リッチテキスト(HTML)形式メール」のメール文章の表示窓を開きます

    ≫ 「HTML」のソース(ブラウジングされていない生のHTML文字列)が羅列されています・・・

  4. 「テキストエディタ」(※)を起 動します

    ※ OS標準装備のアプリケーションであれば「メモ帳(NotePad)」(Windows)、「SimpleText」(Mac OS ~9.x) など

  5. メール本文(ブラウジングされていない生のHTMLソース)の文字列を全てクリップボードにコ ピーします
  6. クリップボードにコピーした文字列を、「テキストエディタ」の画面へ貼り付けます
  7. 適切な場所(ディレクトリ)を選んでから、適当なファイル名を付けてをクリック
  8. 保存された「テキスト文章」ファ イルの拡張子を「.txt」から「.htm」に変更してHTMLファイルにする
  9. 保存したHTMLファイルを文字 参照対応ブラウザソフトで開くと「リッチテキスト(HTML)形式メール」をほぼ正常(※)に表示出来ます

※ 上部に「第3・第4水準漢字」「第1~第4水準実装外漢字」が「?」半角のQestion Mark)となっている文書が、下部にはHTMLに則っとった本来の「リッチテキスト(HTML)形式テキスト」が表示され「第3・第4水準漢字」「第 1~第4水準実装外漢字」も正しく表示されます

 

 

■ 「文字参照」 の種類について

現在、3種類が制定されています

● 文字コード10進法表記 数値「文字参照」

「Internet Explorer 4.0~」「Mozilla系ブラウザソフト」、および左記のリソースを利用したリッチテキスト(HTML)対応メールソフトで使用出来ます

例 : 第3水準漢字の「€」(ユーロ表記記号)

※ 「Netscape Navigator ~4.x」では実装の大半にバグがあるため、大半の文字については参照出来ません

 

● 文字コード16進法表記 数値「文字参照」

完全な実装が行われているブラウザソフトは「Internet Explorer 6.0~」「Mozilla系ブラウザソフト」のみであり、基本的には「16進法表記」として扱う事は避けるべきでしょう

例 : 第3水準漢字の「€」(ユーロ表記記号)

(↑:アルファベット部分は大文字でも小文字でも問題ありません)

※ 「Netscape Navigator ~4.x」では実装の大半にバグがあるため、大半の文字については参照出来ません

※ 「Internet Explorer ~5.x」では実装の一部にバグがあるため、一部文字については参照出来ません

※ 「Netscape Navigator ~4.x」では実装の大半にバグがあるため、大半の文字については参照出来ません

 

● 実体「文字参照」

「Internet Explorer 4.0~」「Mozilla系ブラウザソフト」、および左記のリソースを利用したリッチテキスト(HTML)対応メールソフトで使用出来ますが、一般的な記号類にのみ設定されています
(漢字などの言語表記文字には設定がありません)

例 : 第3水準漢字の「€」(ユーロ表記記号)

(↑:アルファベット部分は大文字でも小文字でも問題ありません)

 

※ 「Netscape Navigator ~4.x」では実装の大半にバグがあるため、大半の文字については参照出来ません

 

 

■ クリップボードを介在さ せての文字のコピーについて

 

ブラウザソフトやリッチテキスト(HTML)形式メールソフトなどでの第3・第4水準漢字の文字参照文字を含む文字列から、クリップボード を介在させての文字のコピーについては、貼り付け先が「ホームページ制作支援ソフト」(タグを直書きするタイプでは無いヤツ)や「リッチテキスト (HTML)形式メール対応メールソフト」など、ソースがHTMLで構築されている文字入力画面へそのまま第3・第4水準漢字の文字参照文字を貼り付ける 事が出来ますが、「Windows 95/98/Me」の場合には、コピーする文字列にHTMLとしてのフォント属性をここで組 み込まれていないと、クリップボードを介してコピーしたときに「第3・第4水準漢字」や「第1~第4水準実装外漢字」が「?」(半角のQestion Mark)に置き換わるに文字化けしてしまう可能性が高くなります(※)

※ 「Windows NT4.0/2000/xp/Server 2003」の場合にはこれらの心配はありません

また、「Unicode(UTF-8)」や「Unicode(UTF-16)」での第3・第4水準漢字を含む文 章をクリップボードにコピーさせて、「Outlook Express」(※)の「リッチテキスト(HTML)形式」設定時の「メッセージの作成」画面へ貼り付けると、それがそのまま「文字参照」による第3・ 第4水準漢字の文字参照文字を含む文章形態になります

※ 「IBM拡張文字」や「Apple拡張文字」などの「機種依存文字」についてはこのページの一番下の項目をご覧下さい

「Mozilla系ブラウザソフト」においても、「Unicode(UTF-8)」や「Unicode(UTF-16)」での第3・第4水準漢字を含む文章をクリップボードにコピーする事が出来ますが、上記のように変換されるタイミングは送信時やHTMLファイルとしての保存時に初めて「&○○○○;」という文字列に変換されます

 

 

■ Windows に標準で装備されている 文字参照対応アプリケーションソフトでの使用例

 

※ WindowsをJIS X 0213:2000附属書1~3準拠の「Shift_JISX0213」に無理矢理対応させる『OS改変プログラム』を適用している状態では、JIS X 0213の「非漢字+第1~第4水準漢字文字集合」に含まれる文字は、文字参照の10進法数値記述/実体文字参照記述には変換されません
(通常のWindowsの状態では、『JIS X 0208の「非漢字+第1・第2水準漢字文字集合」と「Windows機種依存文字」』には含まれない文字の全てが、文字参照の10進法数値記述もしくは実体文字参照記述に変換されます)

 

■ 「Outlook Express」

 

  1. 「新し いメール」を作成します
  2. 「メッセージの作成」にて、ツールバーの をクリック→をクリック

    ≫ これでリッチテキスト(HTML)形式モードになりました

    ※ 「メッセージの作成」の本文文章入力領域についてのみUnicode準拠文字をサポートしていますので、第3・第4水準漢字などを含んだ文章を作成出来ま す

    (UTF-8やUTF-16などのUnicode文章からのクリップボード貼り付けで も、HTMLソースは自動的に第1・第2水準実装外漢字が「&#○○○○;」という文字列に変換されます)

  3. 文章の入力が終ったら、「メッセージの作成」にてボタンを押します

    ≫ メールの本文に、第 1・第2水準実装外漢字が含まれている場合には、「メッセージの文字セットの競合」という警告画面が表示されますが、を クリックして下さい

  4. あとは通常通りの操作でメールを送信しましょう

アイヌ語 表記用小文字カタカナ「U+31F0~U+31FF」アイヌ語表記/鼻濁音のが行・ガ行の発音表記文字(半濁音付きのか行・カ行)表 記用半濁音記号「U+309A」を使用する場合には、HTMLによって指定したフォントが送信先のPCにもインストールされているとは限らない事 を念頭においておく必要があります

なお、「Outlook Express」にて受信した「文字参照」による第1・第2水準実装外漢字を含むメールは、「転送」して文章を編集できる状態にし、ツールバーの をクリック→をクリックして「UTF-8」 「リッチテキスト(HTML)」の設定にして、ツールバーの
「ファイルの種類(T):」 を選択してテキストファイルとして保存すると、「Unicode(UTF-16)」へと変換する事が出来ます

<参考>

「Mozilla系ブラウザソフトのメール機能」においても、「Outlook Express」と同じように「文字参照」によって「第3・第4水準漢字」や「第1~第4水準実装外漢字」を扱う事が出来ます

ただし、「Outlook Express」が本文入力領域への入力時にリアルタイムに「&#○○○○;」という文字列に変換されるのに対し、「Mozilla系ブラウザソフトのメール機能」では送信時やHTMLファイルとしての保存時に初めて「&#○○○○;」という文字列に変換されます

 

■ 「Internet Explorer」

 

  1. 編集したいファイルを表示させた「Internet Explorer」にて、ツールバーのボタンから 「Windows Notepad で編集」を選択

    ≫ 編集したいファイル(文 字エンコード方式は何でも構いません)のHTMLソースの記載された「メモ帳」(Windows Notepad )が表示されます

    ※ : ボタンが無い場合には、タイトルバー下部ので表れる「ツー ル バーの変更」画面にてボタンを追加しましょう

  2. 「メモ帳」にて、「(ゆがけ)」 「(やごろ)」「(あづ ち)」などの文字を使いたい場所へ、以下の文字列を入力しましょう

    ≫ 「(ゆがけ)」の場合、

    ≫ 「(やごろ)」の場合、

    ≫ 「(あづち)」の場合、

     

  3. 「メモ帳」にて編集が済んだら上書き保存しましょう
  4. 先ほどの編集したいファイルを表示させた「Internet Explorer」にて、ボタンを押しましょう

これで、「弽(ゆがけ)」「彀(やごろ)」「垜(あづち)」という感じで「第1・第2水準実装外漢字」 が表示出来ます

 

 

 

 

■ 「ホームページ」での 「文字参照」第3・第4水準漢字文章作成について

 

Unicode対応のホームページ作成支援ソフトでの場合、HTMLソース編集機能(タグ編集モード)を用いて ダイレクトに『「文字参照」Unicode10進法表記文字列』を直書きしても、ブラウズ編集(WYSIWYGモード)に戻ると第1・第2水準実装外漢字 の部分を勝手にUnicodeへに置き換わってしまうシロモノが多いようで(※)、そういった仕様のソフトでは、後でブラウザソフトで確認してみると第 3・第4水準漢字が「?」(半角のQestion Mark)に置き換わってしまうようです(※)

なので、「テキストエディタ」にてHTMLソースを直書きするのが手っ取り早いでしょう

・・・とはいうものの、一度ダイレクトに『「文字参照」Unicode10進法表記文字列』を直書きしても、そ の後にホームページ作成支援ソフトで手直ししたら第1・第2水準実装外漢字の部分が「?」に置き換わってしまうのでは、これではメンテナンスが非常に大変 な事になってしまいます

※ Unicodeカーネルの比較的新しい「ホームページ作成支援ソフト」では、「?」(半角のQestion Mark)に置き換わらないシロモノが多いようです

このような「?」(半角のQestion Mark)に置き換わってしまうホームページ作成支援ソフトで編集する場合には、「yugake」「yagoro」「aduchi」などとローマ字表記 (※)で記述しておいていったん保存(※)し、FTPソフトでサーバーへアップロード直前に「テキストエディタ」の「置換機能」にてHTMLファイルを一 つ一つ以下のような感じで文字列置換するか、「文字列置換ソフト」(※)を用いてフォルダ内のHTMLファイルをまるごと一括文字列置換するのが現実的だ と思われます

※1 半角アルファベットよりも全角アルファベット使用したほうが、文字列置換時の誤変換が発生しにくくなると思われます

※2 次回編集用のバックアップファイルと、アップロード用ファイルの2つを用意しておいたほうが賢明でしょう(「文字列置換ソフト」では自動バックアップされ ます)

 

※ ただ単に「ふりがな」を付けるのでは無く「ルビ」を振りたい場合にはこちらのページをご覧下さい

※ 「文字列置換ソフト」の入手方法についてはこちらのページをご覧下さい

 

 

もしくは、このページ下部で記述している ■ 「Unicode」から「文字参照」への変換方法 でのように、いったんUnicode(UTF-8)でHTML文章を記述してから、 「Internet Explorer」や「Netscape 6.0~」などを使用して『Unicode(UTF-8)エンコード文章』を『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』へと変換する のが効率的かも・・・

※ Shift_JISなどの既存のHTML文章を「Unicode(UTF-8)」に変 換するには、第3・第4水準漢字の扱い方 「Unicode」編 のページ最下部で紹介しているフリーソフトを使用しようすると非常に効率的です

 

 

■ 「Microsoft Word 98/2000」での 「HTML形式保存ファイル」について

 

「Microsoft Word 98~」にて文章を保存する際、Shift_JISエンコードのHTML形式で保存(= )すると、「IBM拡張文字(Windows機種依存文字)」以外の「第1・第2水準実装外漢字」はすべて文字参照によって処理されます

この保存ファイルを「Microsoft Word」にて再編集しても、上記でのホームページ作成支援ソフトでのように第1・第2水準実装外漢字が「?」(半角のQestion Mark)に置き換わってしまう事はありませんので簡単に取り扱う事が出来ます

しかし、「Microsoft Word」でのHTML形式保存というものは、ネット上にホームページとして公開するためのHTML文章作成を目的としたモノでは無く、HTML形式を使 用しながらWord形式(.doc)での文章と出来る限り同一のように再現する事を目的としているため、文字の一つ一つにまで文字属性やレイアウトの詳細 なデータが付与されています

よって、ホームページ作成支援ソフトによって作成されるHTML文章ファイルの数倍~数十倍ものデータサイズに 肥大するため、「Microsoft Word 」でのHTML形式保存によって作成したHTML文章をネット上にホームページとして公開するのは好ましくありません、・・・というか迷惑です!

であるので、Microsoft が無償配布している「HTML Filter 2.1 for Office 2000」「HTML TIDY」- (日本語版・GUIフロントエンド)などを利用しましょう

「HTML Filter 2.1 for Office 2000」ページからの引用

Office HTML Filter は、HTML (Hypertext Markup Language) 形式で保存した Office 2000 文書に埋め込まれている Office 固有のマークアップ タグを削除するためのツールです。Office 2000 で HTML 文書を作成すると、Office 固有のマークアップ タグが埋め込まれます。これらのタグがあると、編集の「ラウンドトリップ」をすることができます。たとえば、Word 2000 で作成した文書を HTML 形式で保存した場合に、これらのタグが埋め込まれていると、その文書を Word 2000 で再度開いたときに文書を作成したときと同じ書式設定、編集状態などが再現されます。

Office HTML Filter を使用すると、Word 2000 または Excel 2000 で HTML 文書の編集を完了した後で、最終的な HTML 文書から Office 固有のマークアップ タグを削除できます。タグを削除すると文書のサイズが小さくなるので、Web サーバー上の格納領域が少なくなり、ページのダウンロードにかかる時間も短くなります。 Office 固有のマークアップ タグを削除した場合のメリットとデメリットに関する詳細については、「Office HTML Filter を使用して短時間でダウンロードできる Web ページを作成する」を 参照してください。

メモ  Office HTML Filter では、シングル バイト エンコード形式で保存されたすべてのファイルを処理できます。マルチ バイト エンコードも処理できますが、Unicode、UnicodeFFFE、および UTF-7 には対応しません。ただし、Unicode のうち Web ページで最もよく使われる UTF-8 はサポートされます。

なお、「Microsoft Word version 2002/Microsoft Office Word 2003」では、 を選択→「ファイルの種類」窓で「Web ページ」を選択すると文字の一つ一つにまで文字属性やレイアウトの詳細なデータが付与されたHTMLファイルとして保存され、 を選択→「ファイルの種類」窓で「Web ページ (フィルタ後)」 を選択すると、ホームページ用途に最適なHTMLファイルが保存出来るようになっています

もしくは、「Microsoft Word ~2000」は使用しないで、Mozilla系ブラウザソフトの「Mozilla ~1.7.x」「SeaMonkey」(旧開発コード名 Mozilla 1.8~)「Netscape 6 / 7」の「Composer」(Mozilla系ブラウザソフトのホームページ作成支援機能)や、「市販のホームページ作成支援ソフト」を利用してホームページを作って おいたほうが、後になってラクなのでは無いかと思われます・・・

 

 

■ 「文字参照」Unicode10進法表記文字列の求め方

 

「OutLook Expless 4.0~」やMozilla系ブラウザソフトの「Mozilla ~1.7.x」(※1)「SeaMonkey」(旧開発コード名 Mozilla 1.8~)「Netscape 6 / 7」を使用すると、簡単に『「文字参照」におけるUnicode10進法表記文字列』が求められます

また、ネット上において「IBM拡張文字」や「Apple拡張文字」をUnicode以外のエンコード方式で扱 いたい場合には、この方法にて「文字参照」として扱うべきでしょう(※2)

※1 Mozilla系ブラウザソフトには、

・・・などがありますが、ここではHTMLエディタ機能を利用するため通常版の「Mozilla ~1.7.x」「SeaMonkey」(旧開発コード名 Mozilla 1.8~)「Netscape 6 / 7」である必要があります。


※2 「Unicode」や「文字参照」であれば、機種依存文字と呼ばれている文字であってもOSの違いによる「文字化け」は発生しません
(該当する文字を包括するフォントが導入されていない環境では「文字抜け」しますが・・・)

 

■ 「Outlook Express」

 

  1. 「新しいメール」を作成します
  2. 「メッセージの作成」にて、ツールバーの をクリック→を選択→を クリック(※)

    ※ 「西ヨーロッパ言語」でなくても、漢字文化圏ではないエンコードなら何でも構いません

    ※ ここで日本語エンコード(JIS)のままにしておくと、Windows Character Set(非漢字+第1・第2水準漢字+IBM拡張文字)に含まれる文字は「文字参照」Unicode10進法表記文字列には変換してくれません

  3. 「メッセージの作成」にて、ツールバーの をクリック→をクリック

    ≫ これでリッチテキスト(HTML)形式モードになりました

  4. 「メッセージの作成」にて、ツールバーの をクリック→をクリック

    ≫ 本文入力欄下部へ、という3つのタブが表示されるようになります

    ※ 「メッセージの作成」の本文文章入力領域についてのみUnicode準拠文字をサポートしていますので、第3・第4水準漢字を含んだ文章を作成出来ます

    (UTF-8やUTF-16などのUnicode文章からのクリップボード貼り付けでも、 HTMLソースは自動的に第3・第4水準漢字が「&○○○○;」という文字列に変換されます)

  5. 本文入力欄に「Unicode10進法表記文字列」を求めたい文字を一文字だけ入力します
  6. タブを選択するとこのような文字列が表示されます

<例>「(ゆがけ)」 を漢字で入力した場合

一番最後の行の「カッコ」に囲われていないの部分が、『「文字参照」におけるUnicode10進法表記文字列』となります

 

 

■ 「Mozilla系ブラウザソフト」

 

  1. Mozilla系ブラウザソフトの「Mozilla ~1.7.x」「SeaMonkey」(旧開発コード名 Mozilla 1.8~)「Netscape 6 / 7」を起動 させます

  2. 上記のMozilla系ブラウザソフトにて、ツールバーの をクリック→を選 択→をクリック

    ≫ 「Composer」が起動します

  3. 「Composer」の文章入力領域にて、ツールバーの をクリック→を選択→を クリック(※)

    ※ 「欧米(ISO8959-1)」でなくても、漢字文化圏ではないエンコードなら何でも構いません

    ※ ここで日本語エンコード(JIS)のままにしておくと、Windows Character Set(非漢字+第1・第2水準漢字+IBM拡張文字)に含まれる文字は「文字参照」Unicode10進法表記文字列には変換してくれません

  4. 「Composer」の文章入力欄に「Unicode10進法表記文字列」を求めたい文字を一文字だけ入力します
  5. :「Composer」のアイコンをクリックして「適当な名前」を付けて保存します
  6. 「Composer」のアイコンをクリックすると、保存したファイルがMozilla系ブラウザソフトで表示されます
  7. 上記のMozilla系ブラウザソフトにて、ツールバーの をクリック→をクリック

≫ 「ページソース」窓が開き、下記のような文字列が表示されます

<例>「(ゆがけ)」 を漢字で入力した場合

一番最後の行の「カッコ」に囲われていないの部分が、『「文字参照」におけるUnicode10進法表記文字列』となります

 

 


なお、「Outlook Expless」や「Composer」での文字入力方式に付いては、第3・第4水準漢字の 扱い方 「Unicode」編 に準じます


また、ちゃどさんによる「Character Code Checker」では、ネット上で簡単に『「文字参照」における Unicode10進法表記文字列』と16進法Unicodeコードポイントを求める事が出来ます(※)

※ <例>「(ゆがけ)」 を漢字で入力した場合、『「文字参照」におけるUnicode10進法表記文字列』はの数字部分のみ()、16進法Unicodeコードポイントについてはと表示されます

 

 

 

 

■ 「Unicode」から「文字参照」への変換方法

 

「Internet Explorer」や、Mozilla系ブラウザソフトの「Mozilla ~1.7.x」(※)「SeaMonkey」(旧開発コード名 Mozilla 1.8~)「Netscape 6 / 7」で開き(Operaは不可)を使用すると、簡単に『Unicodeエンコード文章』を『「文字参照」を使用した第1・第2水準実装外漢字 を含む文章』へと変換する事が出来ます

Mozilla系ブラウザソフトには、

・・・などがありますが、ここではHTMLエディタ機能を利用するため通常版の「Mozilla ~1.7.x」「SeaMonkey」(旧開発コード名 Mozilla 1.8~)「Netscape 6 / 7」である必要があります。


※ 「第1・第2水準実装外漢字」であっても、使用しているOSで再現出来得る「機種依存文字」文字種については、『「文字参照」におけるUnicode10 進法表記文字列』へ変換されません

≫ 「(ローマ数字の1)」「(ローマ数字の2)」「(ローマ数字の3)」といった「ローマ数字」などもWindowsで再現出 来得る「機種依存文字」文字種であるので、Windowsにて下記方法で変換しても、『「文字参照」におけるUnicode10進法表記文 字列』へ変換されません

このような「機種依存文字」文字種が含まれている場合には、この上の部分で記述している ■ 「文字参照」Unicode10進法表記文字列の求め方 を参考にして、「機種依存文字」の『「文字参照」におけるUnicode10進法表記文 字列』を手動で割り出し、「文字列置換ソフト」を用いてフォルダ内のHTMLファイルの「機種依存文字」をまるごと『「文字参照」における Unicode10進法表記文字列』へと一括置換するべきでしょう

なお、「(ローマ数字の1)」の『「文字参照」における Unicode10進法表記文字列』は、 「(ローマ数字の 2)」は、「(ロー マ数字の3)」は、となります



  1. 「Unicode(UTF-8/UTF-16)」ファイルを表示させた「Internet Explorer」にて、ツールバーのをクリック→をクリック
  2. 「Webページに保存」窓にて、窓の一番下の方にある「ファイルの種類(T):」 欄を を選択、「エンコード(E):」欄を (選択肢の中の下から2番目)などを選択、後は適当な場所に適当なファイル名を付けてボタンをクリックします

これで、『Unicodeエンコード文章』が『「文字参照」を使用した第1・第2水準実装外漢 字を含む文章』へと変換されました

ただし、HTML文章にリンクや画像、MIDIファイルなどを使用している場合、「相対パス」 については「保存先ローカルドライブにおける絶対パス」に書き換えられてしまいますので後からパスの修正が必要になってしまいます

であるので、右記のMozilla系ブラウザソフトを使用 したほうが効率的です



  1. 上記のMozilla系ブラウザソフトを起動 し、「Unicode(UTF-8/UTF-16)」ファイルを表示させます

    上記のMozilla系ブラウザソフトにて、ツールバーの をクリック→を クリック

    ≫ 「Composer」が起動し、変換させたいファイルが表示されます

  2. 「Composer」にて、ツールバーのをク リック→をクリック
  3. 「文字セットを指定して保存」窓にて、「文字コード セット」欄を (選択肢の中の下から2番目)などを選択してボタンをクリック、後は「名前を付けて保存」窓にて、適当な場所に適当なファイル名を付けてボタンを クリックします

これで、『Unicodeエンコード文章』が『「文字参照」を使用した第1・第2水準実装外漢 字を含む文章』へと変換されました


 

 

 

■ 「文字参照」から「Unicode」への変換方法

 

「Internet Explorer」や、Mozilla系ブラウザソフトの「Mozilla ~1.7.x」(※)「SeaMonkey」(旧開発コード名 Mozilla 1.8~)「Netscape 6 / 7」(Operaは不可)を使用すると、簡単に『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』を『Unicodeエン コード文章』へと変換する事が出来ます

Mozilla系ブラウザソフトには、

・・・などがありますが、ここではHTMLエディタ機能を利用するため通常版の「Mozilla ~1.7.x」「SeaMonkey」(旧開発コード名 Mozilla 1.8~)「Netscape 6 / 7」である必要があります。



  1. 「Internet Explorer」にて、『Unicode 3.2準拠のアイヌ語表記用小文字カタカナやアイヌ語表記用半濁音付きカタカナなどを、HTML2.0規格の文字参照として10進法数値記述/実体文字参照記述したShift_JIS(JIS X 0208) HTMLファイル』に仮変換したHTMLファイルを表示させ、ツールバーのをクリック→をクリックします

  2. 2-1 : 「Unicode(UTF-16)テキストファイル」へ変換させる場合

「Webページに保存」窓にて、窓の一番下の方にある「ファイルの種類(T):」欄をを選択、「エンコード(E):」欄を(選択肢の中の一番上)を選択、後は適当な場所に適当なファイル名を付けてボタンをクリックします

(ただし、「Unicode(UTF-16)テキストファイル」へ変換しても「BOM(Byte Oder Mark)」(Unicodeサイン)は付与されない不具合があるため、「WordPad」や「(Windows NT4/2000/xp/Server 2003の)メモ帳」では開けません)

2-2 : 「Unicode(UTF-8)テキストファイル」へ変換させる場合

「Webページに保存」窓にて、窓の一番下の方にある「ファイルの種類(T):」欄をを選択、「エンコード(E):」欄をを(選択肢の中の上から2番目)を選択、後は適当な場所に適当なファイル名を付けてボタンをクリックします

2-3 : HTMLファイルのまま「Unicode(UTF-8)」へ変換させる場合()

「Webページに保存」窓にて、窓の一番下の方にある「ファイルの種類(T):」欄をを選択、「エンコード(E):」欄を(選択肢の中の上から2番目)を選択、後は適当な場所に適当なファイル名を付けてボタンをクリックします

元ファイルがHTMLの場合には、リンクや画像、MIDIファイルなどを使用している場合、「相対パス」については「保存先ローカルドライブにおける絶対パス」に書き換えられてしまうため後からパスの修正が必要になってしまいます

であるので、このような場合には右記のMozilla系ブラウザソフトを使用したほうが効率的です



  1. 上記のMozilla系ブラウザソフトを起動し、『Unicode 3.2準拠のアイヌ語表記用小文字カタカナやアイヌ語表記用半濁音付きカタカナなどを、HTML2.0規格の文字参照として10進法数値記述/実体文字参照記述したShift_JIS(JIS X 0208) HTMLファイル』に仮変換したHTMLファイルを表示させます

  2. 上記のMozilla系ブラウザソフトにて、ツールバーの をクリック→をクリックします

    ≫ 「Composer」が起動し、変換させたいファイルが表示されます

  3. 「Composer」にて、ツールバーのをクリック→をクリック

  4. 「文字セットを指定して保存」窓にて、「文字コード セット」欄を(選択肢の中の上から2番目)を選択、テキストファイルにする場合は「テキストにエクスポート」にチェックを付けて(HTMLファイルのままにする場合は「テキストにエクスポート」にチェックを付けないで)、ボタンをクリック、後は「名前を付けて保存」窓にて、適当な場所に適当なファイル名を付けてボタンをクリックします


 

 

→ return to back

→ return to toppage