6.文字、単語、段落 Characters, Words, and Paragraphs

HTML利用者代理はHTML文書の本文を、文字組みした段落や割付け済み文章の集まりとして表示することを条件とします。割付け済み要素(<PRE>、<XMP>、<LISTING>、<TEXTAREA>)を除く各ブロック構成要素は、中身のデータ文字やその系列の要素の中身を取ってそれらを連結し、その結果を空白やタブあるいは記録終了記号(おそらくハイフン記号を含む)で区切られた単語に振り分けて得られる一つの段落と見なされます。一連の単語は改行を入れることにより段落となる文字組です。

6.1.HTML文書文字セット The HTML Document Character Set

文書文字セットは9.5,「HTMLのSGML宣言」で定義されます。HTML利用者代理はこれを実装することが必要とされます。これにはラテンアルファベットNo.1、または略してLatin-1と呼ばれる象形字が入っています。Latin-1は191の象形文字から成り、大多数の西欧言語のアルファベットを含んでいます。
注 :
空白やハイフンで分かち書きをしない文字を使用することは、それらが広くサポートされていないので推奨しません。

注 :
西洋以外の表記法を通すため、HTMLの来るべき新版ではより幅広い文字体系が定義されることでしょう。その文字セットは[ISO-10646]かそれにしたがったサブセットになるはずで、特に数字は[ISO-10646]で割り当てられた文字コード番号を使用しなければなりません。

SGMLの応用では異なるネットワークやOSを乗り越える互換性を最大限に確保するために、制御文字は使用を制限されています。HTML文書文字セットでは、水平タブ、キャリッジリターン Carriage Return、ラインフィード Line Feed(文字コード番号はそれぞれ9、13、10)の三つだけが許されています。

広くサポートされているASCII文字のみを使ってLatin1文字の表現を可能にするために、HTML DTDはAdded Latin1実体セットを参照します。例えば以下のようになります:

Kurt G&ouml;del* was a famous logician and mathematician.
訳注
*このように記述してみても、Latin1文字コードではなくJISコードを使っている以上は残念ながら文字化けしてしまいます。
HTML4.0DraftではFONT要素でFACE属性を指定できますので、<FONT FACE="Times">などとしてFONTを切り替えて表示させることが可能です。ただしこれは既にDeprecatedな表記で、正式にはstyle sheetでコントロールすべきです。

"Added Latin 1"実体の表は9.7.2,「ISO Latin1文字記号実体セット」を、[ISO 8859-1]の文字コード番号とHTML文書文字セットの制御文字の表は13,「HTMLでコード化された文字記号セット」を参照してください。


戻る  目次  進む