HTML利用者代理はHTML文書の本文を、文字組みした段落や割付け済み文章の集まりとして表示することを条件とします。割付け済み要素(<PRE>、<XMP>、<LISTING>、<TEXTAREA>)を除く各ブロック構成要素は、中身のデータ文字やその系列の要素の中身を取ってそれらを連結し、その結果を空白やタブあるいは記録終了記号(おそらくハイフン記号を含む)で区切られた単語に振り分けて得られる一つの段落と見なされます。一連の単語は改行を入れることにより段落となる文字組です。
SGMLの応用では異なるネットワークやOSを乗り越える互換性を最大限に確保するために、制御文字は使用を制限されています。HTML文書文字セットでは、水平タブ、キャリッジリターン Carriage Return、ラインフィード Line Feed(文字コード番号はそれぞれ9、13、10)の三つだけが許されています。
広くサポートされているASCII文字のみを使ってLatin1文字の表現を可能にするために、HTML DTDはAdded Latin1実体セットを参照します。例えば以下のようになります:
Kurt Gödel* was a famous logician and mathematician.
- 訳注
- *このように記述してみても、Latin1文字コードではなくJISコードを使っている以上は残念ながら文字化けしてしまいます。
HTML4.0DraftではFONT要素でFACE属性を指定できますので、<FONT FACE="Times">などとしてFONTを切り替えて表示させることが可能です。ただしこれは既にDeprecatedな表記で、正式にはstyle sheetでコントロールすべきです。
"Added Latin 1"実体の表は9.7.2,「ISO Latin1文字記号実体セット」を、[ISO 8859-1]の文字コード番号とHTML文書文字セットの制御文字の表は13,「HTMLでコード化された文字記号セット」を参照してください。