HTML 4の概説

World Wide Webとは何か?

ウェブ(World Wide Web)とは,世界規模に擴がった情報の網の目の意で,インターネットなどのネットワークを使用したハイパーテキストの情報共有システムのことです。ウェブは,情報資源が可能な限り多くの人々に入手可能であるやう,次の3機構から成り立ちます:

參考:

以降でURIを説明しますが,ごく大雜把なものです。より詳細な概説は,上記の參考資料をお奬めします。

URIの大雜把な説明

ウェブで利用可能なあらゆるリソース――文書,畫像,動畫,プログラム,etc…――は,URIと呼ばれる「所在」を持つてゐます。

典型的なURI(Uniform Resource Identifier)は,次の3部分で構成されます:

  1. リソースのアクセスに用ゐるメカニズムのスキーム名。
  2. リソースを提供するホスト-コンピュータの名前。
  3. パスとして與へられるリソース自身が持つ名前。

たとへば,W3Cにある技術報告(TR)のリソースを指し示すURIで考へてみませう:

http://www.w3.org/TR

このURIは,次のやうに讀み取れます:

  1. これはHTTPプロトコルによつて利用できるものであり,
  2. www.w3.org といふホスト-コンピュータに存在し,
  3. /TR といふパスが與へられたリソースにアクセスできる。

HTML文書で見かけられる他のスキームには,電子メールの "mailto",FTPの "ftp" などがあります。

次に,URIのもう1つの例を示します。これは,筆者(私)のメールボックスを指し示してゐます:

<p>この記事に關するコメントは,
<a href="mailto:katsu@ea.mbn.or.jp">Katsu &lt;katsu@ea.mbn.or.jp&gt;</a>まで。</p>

これまでの説明では,URIの一つの手段であるURLの例を示してゐます。多くの讀者にとつて "URL" といふ語に馴染みがあつても,"URI" といふ語は聞き慣れないかもしれません。URIとは,リソースを識別するために用ゐ得る,あらゆるスキームを總稱したものです。

部分識別子(fragment identifiers)

URIのなかには,リソースの内部を指し示ものがあります。この種のURIは末尾にハッシュ("#")とそれに續くアンカー識別子(これを部分識別子もしくはフラグメント識別子と呼ぶ)が附けられます。たとへば次のURIは,"h-2.1.2" と命名された終點アンカーを指し示してゐます:

http://www.w3.org/TR/html401/intro/intro#h-2.1.2

相對URI(Relative URIs)

相對URIは,アクセス方法のスキーム情報をまつたく含みません。このパスは一般に,同じホスト-コンピュータに存在するリソース同士を參照するために使用されます。相對URIには,相對パスの構成要素(たとへば "../" は1つ上の階層を示す)や,部分識別子が含まれ得ます。

相對URIは,基準URIが用ゐられて,完全URI(もしくは絶對URIとも呼ぶ)へと解決されます。
たとへば,この文書の所在である基準URI(各自でロケーションバーなどを確認のこと)で假定してみませう:

リンクアンカー: <a href="markup.html">マークアップの基礎</a>
完全URI: file:///C:/VA022006/html/markup.html
スタイルシート: <link href="styles/html.css" rel="StyleSheet" type="text/css">
完全URI: file:///C:/VA022006/html/styles/html.css
畫像の埋込み:<img src="../banners/valid-html401.png" alt="Valid HTML 4.01!">
完全URI: file:///C:/VA022006/banners/valid-html401.png

最初の相對URIは,同一階層にある別の文書を參照してゐます。その次は,1つ下の階層にある "styles" といふディレクトリにあるCSSファイルを參照してゐます。そして最後は,1つ上の階層にある "banners" といふディレクトリにあるPNG畫像を參照してゐます。

1つ上の階層は "../" で示されます。2つ上の階層なら "../../" と示します。更に上の階層でも同樣です。

同一の階層は "./" で示されますが,省略して構ひません。また,相對URIの先頭に "/" を記すと,それはサーヴァのルート(最上位階層)からのパスを意味します。これは一般に絶對パスと呼ばれ,現在ディレクトリの深さに關らず,ルートに溯ることができます。

(補足:しばしば混同されるのですが,http:// から始まる形式は "絶對URL" であつて,"絶對パス" とは呼びません。)

相對URIを用ゐるとリソースの絶對位置に依存しないので,ローカルとサーヴァ上の雙方で柔軟に對應できます。

HTMLとは何か?

グローバル(世界規模・地球規模)に博くゆきわたる情報を公開するためには,すべてのコンピュータが潛在的に理解可能であるやうな,文書公開のための共通言語の一種として,ユニヴァーサル(世界中の誰にでも普遍的)に理解される言語が必要です。すなはち,ウェブ(World Wide Web)で使用される公開言語こそが,HTML(HyperText Markup Language)といふ訣です。

HTMLといふ語を構成する "HyperText" と "Markup" を大雜把に説明すると,次のやうになります:

HyperText: ハイパーテキスト
ハイパーテキストとは,情報リソースの間を結び附けるためのハイパーリンク機構を持つたテキストのこと。讀者は,ハイパーリンクの始點として文書中に示されたアンカーを操作することに因つて,リソース間を容易に移動できる。「テキストを超えたテキスト」の意。
Markup: マークアップ
通常のテキストに印を附ける(マークアップする)ことで,文書の構成要素(見出し,段落,箇條書き,引用などの役割)を明示する仕組のこと。これにより,あらゆるUser Agentが文書を理解できるやうになり,讀者の環境に應じた方法で情報が傳逹される。

HTMLはブラウザやプラットフォームの違ひをこえて良好に機能するやう,相互運用性の確保におもきが置かれます。すなはち,あらゆる環境でウェブの情報資源が利用できるやう,誰もが理解可能であるやう,文書が短期間で讀取れなくならないやう,設計されてゐます。

ウェブとHTMLの略歴

HTMLは初め,1980年代末〜1990年代初頭に掛けて,CERN(歐洲素粒子物理學研究所)といふ機關でソフトウェア-コンサルタントとして在籍してゐたTim Berners-Lee氏(現W3Cディレクタ)に據つて,ウェブを構成する文書メカニズムとして考案されました。

CERNはスイスのジュネーヴ近郊にある「素粒子物理學」の研究所で,世界中から集結した技術者や科學者逹が,素粒子といふ,物質を構成する最小單位となる粒子の特性について,日々研究に勤しんでゐる國際機關です。研究者たちは實にヴァラエティに富んだ人々の集まりで,銘々が異る文化のもとで育ち,異る言語を用ゐ,そして樣々なコンピュータ,ソフトウェア,アルゴリズムを持ち込んでゐました。

1980年代,CERNには統一的な知識共有のための文書システムが存在してをらず,皆が個別のネットワーク,コンピュータ,ソフトウェアおよびフォーマットを利用してゐました。彼等はこの混亂を打破する爲の提案を出し合ひましたが,意見は中々一致しませんでした。

そこでTim Berners-Lee氏は,誰もが受容れられる共通した決りに則したシステムが必要だと考へます。そして,先人逹が殘したアイデアを應用して,CERNの内部だけに留まらない,グローバルなハイパーテキストを豫兆されるシステム――World Wide Webを創造します。

ウェブの黎明期における混亂

1990年代前半,ウェブはNCSAで開發されたMosaicブラウザによつて開花しました。その後,Mosaicの開發から離れたマーク・アンドリーセン氏等によつてMozilla(Mosaicを喰ひ潰す怪獸の意)がリリースされ,後に改名されたNetscapeと共に,爆發的に成長して行きます。

1990年代中頃,後發のMicrosoft Internet Explorerがリリースされると,Netscapeとの抗爭が激化するやうになり,いはゆる「ブラウザ戰爭」が勃發します。この過程で兩者は,日常生活の一部としてウェブを利用し始めた人々が何よりも "プレゼンテーション" に興味を持つてゐることを察知すると,互ひにユーザの圍ひ込みを圖り,HTMLをプレゼンテーションの道具として,相互運用性を無視して,樣々に擴張して行きました。

結果としてHTMLはヴェンダごとに分け隔てられた,互換性のない,汎用性のないフォーマットになつてしまひました。

W3C設立とHTML 3.2勸告

1994年,Tim Berners-Lee氏とその關係者によつて,ウェブ技術に關してのコンセンサスを構築するための工業コンソーシアムとして,W3C(World Wide Web Consortium)が設立されます。W3Cはウェブを最大限の可能性に導くことを目的とした相互運用技術(仕樣,ガイドライン,ソフトウェア,およびツール)を開發するための,情報,商業,コミュニケーションおよび綜合的な理解のためのフォーラムです。

1997年,W3CはHTML 3.2を勸告します。HTML 3.2では,HTML 2.0(1995年11月,IETFの支援によつて規格化されてゐた)との互換性を保ちつゝ,ヴェンダによつて獨自に擴張されたプレゼンテーション慣行のうち,最も一般性のあるものを妥協的に導入しました。

HTML 3.2は國際化されてをらず,まだASCII文字列しか使用できませんでした。つまり正式には,日本語で書かれたHTML文書を公開することが出來なかつたのです。(同年に國際化されたHTML i18n(HTML 2.x)が規格化されてゐましたが,HTML 3.2には活かされませんでした。)

HTML 4について

HTML 4では,HTML 3.2で成し遂げられなかつた國際化に對應してをり,アクセシビリティの向上も意圖されてゐます。また,文書にスタイルシートを結び附けるための仕組を導入したことにより,HTML 3.2で導入されたプレゼンテーション機構のほとんどを非推奬にしました。

W3Cは構造とプレゼンテーションの分離を奬勵し,プレゼンテーションの提示にはスタイルシートの利用を奬勵してゐます。

また,HTML 4の文書型として,より理想的な文書型であるStrict DTD(嚴格な文書型)を奬勵しつゝ,移行期間としてのTransitional DTD(推奬されない要素や屬性を含む文書型)を提案しました。また,文書を複數の表示域で提供するためのFrameset DTDも用意されてゐます。

國際化對應

HTML 4では,國際化對應の一環として,文書文字集合に國際符號化文字集合:UCS(ISO/IEC 10646)が採用されてゐます。すなはち,世界中の國や地域など,あらゆるコミュニティで使用されてゐる多樣な(何萬もの)文字を利用できるやうに設計されてゐます。

また,文書中に樣々な異る自然言語を混在させるためのサポートも提供されます。これによつて,檢索エンジンがより效果的な索引づけを行ふことや,より高度なタイポグラフィ,より正確な音聲讀み上げ變換,より良いハイフネーションなどが可能になります。

正式に "日本語のHTML文書" が公開可能になつたのも,1998年にHTML 4仕樣が勸告されたお蔭なのです。

スタイルシート

W3Cはより強力なプレゼンテーション機構としてスタイルシートを奬勵するため,HTMLによるプレゼンテーション目的の要素型および屬性を,段階的に縮小させてゆく方針を立てました。HTML 4では「將來的に削除される」ものを "deprecated" と呼んでゐます。

スタイルシートを利用することにより,HTML文書のマークづけを簡素にでき,またHTMLをプレゼンテーションの大きな負擔から解放します。スタイルシートは著者およびユーザの雙方に,文書の提示方法を定めるためのプレゼンテーション機構を提供します。

スタイル情報は,個別の要素にも,要素の集合に對しても指定でき,HTML文書の内部で指定するか,外部のスタイルシートで指定します。著者は,外部スタイルシートを利用することにより,複數の文書間をとほして一貫した體裁および雰圍氣を保つことができます。

アクセシビリティ

HTML文書は,グラフィカルに閲覽するウェブブラウザだけで利用されるものではありません。ウェブ上にHTML文書を公開するといふ行爲は,そこに置かれたリソースを利用するであらう,不特定多數のUAとその利用者に向けて,開かれた情報を提供するといふ事です。

誰にとつても,特に障礙者にとつても,ウェブのアクセス性をより高めるために,著者は自身の文書が,音聲や點字など,多樣なプラットフォームでどのやうにレンダリングされ得るのか,考慮する必要があります。これは著者の創造性を制限しようといふのではなく,適切な代替内容を提供するなど,基本的な文書設計で實現できる事です。たとへばHTML 4では,alt屬性やaccesskey屬性など,多くのメカニズムが提供されます。

參考:

アクセシビリティの向上が意圖するのは,特定のハンディキャップに對して特別に配慮しよう,といふのではなく,ウェブの情報資源にアクセスするであらう,あらゆる人々が共通して理解可能であるやうな,ユニヴァーサルな情報設計をしよう,といふ事です。かういつた指針には,HTML仕樣のコンセプトからすれば當然の事柄もたくさん含まれてゐます。もとよりHTML 4仕樣は,相互運用性の確保におもきを置いてゐるのですから。