日本語コード

3種類の日本語コード
JISSJISEUC
IANA登録名(注1)ISO-2022-JPShift_JISEUC-JP
1バイト目0x21〜0x7e0x81〜0x9f
0xe0〜0xef
0xa1〜0xfe
2バイト目0x21〜0x7e0x40〜0x7e
0x80〜0xfc
0xa1〜0xfe
使用するビット数7ビット8ビット8ビット
エスケープシーケンス必要(表M-2を参照) 不要不要
1バイトカナ(半角カナ/JIS X 0201カナ) 7ビットJIS=0x21〜0x5f
8ビットJIS=0xa1〜0xdf(注2)
0xa1〜0xdf 0x8ea1〜0x8edf(注3)
補助漢字(JIS X 0212) エスケープシーケンスで切り替え 使用不能 0x8fa1a1〜0x8ffefe(注4)
注1
IANA(Internet Assigned Numbers Authority)はインターネット上で使う文字コードを管理する 組織。ここに登録されている名前をContent-typeヘッダで指定することになっています。
注2
SO(shift out/0x0e)で1バイトカナに切り替えてSI(shift in/0x0f)で戻す方式と、8ビット目を 使って表す方式の2通りがあり、前者を「7ビットJIS」、後者を「8ビットJIS」などと呼ぶことがあります。 ただし、普通「JISコード」という場合には1バイトカナは含まないので注意してください。現にJISコードに 対応しているソフトウエアの多くはJISの半角カナをサポートしていません。
注3
一見2バイト文字に見えますが、正確には0x8eという制御文字(SS2)の後に0xa0〜0xffなので「1バイト」 文字です。ただし対応していないソフトウエアも多いので使わないほうがよいでしょう。
注4
0x8fとう制御文字(SS3)の後に0xa1a1〜0xfefe。
表M-2:JISのエスケープシーケンス
エスケープシーケンス文字セット規格
[ESC](BASCII(ISO 646:1991)
[ESC](JJISローマ字JIS X 0201-1976
[ESC]$@旧JISJIS X 0208-1978
[ESC]$B新JISJIS X 0208-1983

2002年5月7日 この文章は、古川剛、秋本祥一著 CGI基礎講座(ISBN4-88135-766-2)を参考にして作成しました。

KAWAUCHI.K kawauchi@deneb.freemail.ne.jp