超越書類表記法Hypertext Markup Language(HTML)は、異なるプラットホーム間で受け渡しができる超越書類を作成するための簡素な表記法です。HTML文書はSGML文書の一種であり、幅広い分野にわたる情報を表現するのに適しています。
HTMLはSGMLの応用なので,この仕様書は読者に[SGML]の具体的な知識があることを想定しています。
HTMLは1990年から専ら全世界情報通信網World-Wide Web(WWW)で全地球的に情報を発信するために利用されています。
これまでは、HTMLに関する文書は非公式な形でインターネット上の様々なところから提供されていました。この仕様書は、凡そ1994年7月までに一般的に使われてきたHTMLの内容に合わせ、その機能を統合、整理し、形式化したものです。インターネットの世界では、新しいHTMLの機能が多数提案され実験されています。
したがってこの文書では(以前の非公式な仕様と区別するために)HTML2.0を定義します。新しい機能を含むHTMLの次期バージョン(おそらくは上位互換)は、これより上位のバージョンとして提供されるはずです。
HTMLは、ISO Standard 8879:1986,"Information Processing Text and Office Systems; Standard Generalized Markup Language"(SGML)の応用です。HTMLの文書型定義(DTD)は、SGMLの観点から正しいHTMLの文法を定義しています。
また、この仕様書は`text/html'というInternet Media Type[IMEDIA]とMIME Content Type[MIME]としてのHTMLも定義しています。これ自体は、HTMLの文法の意味を定義するもので、(W.W.W.ブラウザなどの)利用者代理がどのように文法を解釈するかを示しています。
この仕様書はHTML文書の文法と利用者代理の動作の大枠を決定するものです。
以下の要件を満たす文書はHTMLに準拠している文書です
- SGML文書に準拠し、HTML DTDに準拠しているもの(9.1.9.1, 「HTML DTD」を参照)
- 注 :
- 語法の中には、旧式の利用者代理では扱われていなかったりまちまちな扱われ方をされたりするものが相当数あります。この仕様書では、そのような語法について、このような注意書きの中で確認していきます。
- この仕様書内で示されている規格に合致している。例えば、<A>要素のHREF属性の値はURIの文法に準拠しなければならない。
- その文書の文字セットが[ISO-8859-1]を含み、[ISO-10646]に一致している。
すなわち、各々の文字コード番号が、13で列挙する「HTMLの文字コードセット」に含まれ、その文書の文字コード番号が[ISO-10646]で定められた文字コード番号と一致する。
- 注 :
- 文書を表わす際にはいくつかの異なった文字コード体系が使用されています。例えば`ISO-2022-JP'の文字コード体系は、[ISO-10646]のサブセットなのでHTMLで使用可能です。重要な特徴として、数字はその文書の文字コードに関係なく[ISO-10646]に準拠します。
機能試験実体feature test entitiesとしてHTML DTDは標準的なHTML文書タイプと様々なバリエーションを定義しています。機能試験実体はHTML DTDにおける宣言であり、DTDの一部を含むか除くかをコントロールします。
- 推薦されるHTML HTML.Recommended
- HTMLの機能には、広く行きわたった使用法との互換性のために必要なものもあります。しかしこれは文書の構造上の完全性を損なうかもしれません。
この機能試験実体は、そのような機能を省いてもっときちんとした文書型定義ができるようにするものです。
省略すると`IGNORE'にセットされます。
例えば、編集利用者代理のなかには文書の構造を保つために、HTML文書を推薦される(recommended)サブセットに変換したり、入力文書をサブセットに合わせるように要求するものもあるでしょう。
- 望ましくないHTML HTML.Deprecated
- HTMLの機能には、旧版の仕様との適合性のために必要なものもあります。しかしこれは使用や実装に際して矛盾する傾向があり、使用は望ましくありません。
この機能試験実体は、このような機能を使える文書型定義ができるようにするものです。
省略すると`INCLUDE'にセットされます。
変換ソフトや編集ソフトで作成された文書が、望ましくない(deprecatedな)語句を含んでいてはなりません。
HTML利用者代理は以下の要件に従います:
- HTML文書の字からデータ文字を取りだし、[SGML]に従って表記する。
- 注 :
- 安定性と拡張性を両立させるために、規定に従わない文書を処理する際の協定も数多く存在する。詳しくは4.2.1.「宣言されていないマークアップのエラー処理」を参照のこと。
- `ISO-8859-1'文字コード系をサポートし、ISO Latin Alphabet No.1 を 6.1.「HTML文書の文字セット」で述べる仕様として処理する。
- 注 :
- 欧米以外の書式を扱うために、HTML利用者代理が`ISO-10646-UCS-2'あるいは同様の文字コード系を扱えるようにすることを推奨します。[ISO-10646]と同程度の種類の文字が実用的です。
- 一連のトークン分析の結果が同一のものであれば、その文書の振舞いはまったく同一になる。
例えば、コメントやタグの空白はトークン分析の過程で無視されるので、準拠した利用者代理の動作には影響しません。
- HTML文書において<A>要素からの超連鎖を、利用者がたどることが可能である。(あるいは少なくとも可能な限り移動を試みる)
さらに第2水準の利用者代理は以下の要件にも従います:
- HTML文書に書かれた書式入力欄を表示し、入力された内容を送信することができる。