用語集

定義

この覺書で使用する用語のうち,各解説文書で説明されてゐないもの,一般に認知されてゐないもの,勘違ひされやすいものを定義します。この中には,ごく大雜把な説明のもの,個人的な主觀に基くものも含まれてゐます。詳細は各仕樣書などをご參照ください。

以降の用語説明においては,文章を簡潔にするために,"敬體" ではなく "常體" を使用します。

SGML(Standard Generalized Markup Language)

1986年にISO 8879として定められた標準規格。マークアップ言語を定義するためのメタ言語の一種。

SGMLは,「SGML宣言」,「文書型定義(DTD)」,「文書インスタンス」の3つで構成されてゐる。

HTMLはSGMLに據つて定義された,ウェブに文書を公開するための簡潔なマークアップ言語として勸告されてゐる。HTML仕樣では「SGML宣言」と「文書型定義」は豫め決められてをり,著者は實際の文書構造として「文書インスタンス」だけを設計する。

XML(Extensible Markup Language)

XMLとは,複雜すぎて應用が難しいSGMLを簡素化し,SGMLの缺點を解消したメタ言語の一種。

XHTML(Extensible HyperText Markup Language)

XHTMLとは,HTMLをXML應用として再生産し,サブセット化し,擴張する,文書型とそのモジュールのファミリ。

HTMLで許容されてゐた「タグの省略」などの簡略化は認められず,正確(整形式)なマークアップが要求される。

ISO-HTML(ISO/IEC 15445:2000)

ISOとIECによる規格で,HTML 4.01 Strictより更に嚴格なサブセット。裝飾に關する要素型や屬性は殆ど含まれず,見出しの出現について嚴格な決りがある。また,スクリプトは確立された技術ではない,として使用できない。(參考:ISO-HTML夜話

HTML文書(HTML document)

HTML文書とは,公式なHTML仕樣の文書型定義に適合したSGML文書のこと。

この覺書では,單に「文書」と表現した場合,暗示的にHTML文書のことを指す。

ソース文書(Source document)

User Agentに據つてレンダリングされるより以前の,マークアップ文書のソース。

ソース文書とは,文書言語の文書型定義(DTD)に基づかれた,要素のツリーとして表現するマークアップで構成される。各要素は,その型を識別するための名稱,任意もしくは必須指定の多數の屬性,および空の場合もありうる内容から構成される。

知覺と認知
プレゼンテーション:表現方法(presentation)

プレゼンテーション:表現方法(presentation)とは,ユーザの五感によつて認知できる形式で,文書の内容および構造をレンダリングすること。つまり,單なる "見た目" や "レイアウト" といつた表面的な具象に限られない,もつと博い意味での表現。

たとへば,視覺的な體裁やレイアウト,色,フォント,テキスト裝飾,音聲,點字など,人間が知覺できる表現。

スタイルシート(Style sheet)

スタイルシートとは,文書の表現方法(音聲表現も含む)の指定に特化した構文の集合體のこと。構造化文書に適用されるスタイルシートには3通りの出處がある: その内容の著者が指定したものユーザが指定したものUAに備はつてゐるもの

CSSはスタイルシートを記述するための言語として,最も一般的に使用されてゐる。(參照:CSS2リファレンス

レンダリング(rendering)

レンダリングとは,スタイルシートの指定に基いて,文書を構成する要素に對應する整形構造を提示する働き。レンダリングといふ表現は,視覺空間としての整形構造に限らない。時間の流れに伴つて出力される音聲や點字などの提示もまた,レンダリングである。

視覺系ブラウザによるデフォルトの體裁結果は,内藏されてゐるデフォルト-スタイルシートの働きに過ぎない。

カンヴァス(canvas)

カンヴァスとは,あらゆるメディアにおいて「文書の整形構造が出力される空間」を意味する。一般にスクリーン環境の視覺系ブラウザでは,横幅に制限を設け,表示域(viewport)の寸法に基いて横幅の初期値を設定するであらう。印刷ページを出力するUser Agentであれば,一般に縱幅と横幅に制限を設けるだらう。また音聲出力なら,音聲空間は制限しても,時間的制限は設けないかもしれない。

表示域(viewport)

表示域とは,視覺系ブラウザにおける,文書本文の内容と構造がレンダリングされる領域。カンヴァスは各次元について無限空間を持つてゐると考へられるが,實際には表示域の有限領域にカンヴァスを出力するのが一般的である。横書きフローでの表示域では,一般に横幅は制限されるが,縱方向は際限なく連續して出力できる。ただし表示域の一面から溢れる内容は,スクロール操作により閲覽する。

著者(Author)

著者(もしくは制作者)とは「書き手」のことで,HTML文書を書いたり,生成したりする人,あるいはプログラムのこと。オーサリングツール(authoring tool)はこの著者の特別な事例であり,HTML文書を生成するプログラムを指す。

HTML 4文書を作る際には,嚴格(Strict)な文書型への適合が推奬される。(參照:ヴァージョン情報

ユーザ(User)

ユーザ(もしくは利用者)とは,User Agentとやり取りする人のこと; HTML文書を見る,聞く,その他の利用法で。

ユーザエイジェント(UA:User agent)

ユーザの代りに樣々な仕事をこなして呉れるプログラムの總稱。HTTPに基いて,リソースの送出を要求するもの。リソースの取得・解析,データの收集,リソースの保存などを行ふ。ものに依つては文書の内容と構造をレンダリングし,人間が閲覽できる樣にする。

User Agentには以下のものがある: 視覺系ブラウザ(テキストだけのもの,グラフィカルなもの),非視覺系ブラウザ(音聲や點字で表現するもの),檢索エンジンのロボット(クローラ),携帶電話,PDA,ダウンロードツール,別の文書形式へ變換するもの,印刷出力を行ふもの。そのほかスクリーンリーダー,畫面擴大表示ソフトウェア,音聲認識ソフトウェアなどのやうにブラウザと共に動作する支援技術も含まれる。

ウェブブラウザ(WWW Browser)

User Agentのひとつ。取得した文書やスタイルシートを解析し,文書の構造および内容をレンダリングし,ユーザが見たり,聞いたり,情報を認知できるやうに機能するプログラムのこと。單にブラウザと呼ばれる事が多い。これには非視覺系のものも含む。

リソース:情報資源(resource)

リソース(resource)とは,URIによつて識別できるデータやプログラムなどの情報資源の總稱。

たとへば文書,スタイルシート,畫像,音聲や動畫,メールアドレス,書籍,人間など,樣々なもの。

リソース群

リソースの集まりのこと。統一的な主題を持つた一聯のリソース。全體的にはサイトとも。

ただしリソース群のうち,HTML文書だけを取り立てる場合には,文書群と呼ぶこともある。

ウェブサイト(web site)

ウェブサイト(もしくは單にサイトとも呼ぶ)とは,全體として統一的な思想が表現された(一個人もしくは一團體による),ウェブ上のリソース群のこと。文書間をハイパーリンクのアンカーで繋ぎ止める事により,ユーザはサイト内を自由に移動できる。

ウェブページ(web page)

1つのURIで特定される文書とそれに結び附けられたリソースの構成物が,User Agentのカンヴァスにレンダリングされた状態。もしくはその状態が意圖される抽象的な情報集合の概念。視覺系ブラウザなら,表示域(viewport)にレンダリングされた情報と言へる。

ホームページ(home page)

ホームページといふ語は,時代の變化に伴つて次のやうな3つに意味に分裂してゐる:

  1. ウェブブラザの起動時,あるいは「ホームボタン」などの操作によつて讀み込まれるページ。
  2. ウェブサイトの表紙(cover)/據點(home)/起點(front/root/top)となる單一のページ。
  3. "ウェブページ" もしくは "ウェブサイト" と同義とする誤用。「家」の意だと思つてゐる人もゐる。

この覺書では "ホームページ" といふ語を使用しない。もはやこの語は曖昧さを囘避できない。

コンテンツ(contents)

コンテンツ(contents)といふ語は,文脈によつて樣々な意味で使用される:

  1. 中身。内容。文章の事柄。何かに含まれてゐるもの。
  2. 目次。見出しの箇條書き。"table of contents" の意。
  3. 情報サーヴィスで提供される情報内容を漠然としめす。
  4. 要素の内容(content)。SGML用語。本來は單數系。
  5. CSS用語である "content area" のこと。内容領域。
アクセシビリティ(accessibility)

アクセスしやすさ,接しやすさの度合のこと。障礙を持つユーザを含め,あらゆる人々が,どんなUAを利用してゐても,どのやうな環境のもとでも,認知しやすく,操作可能であるやうに設計されてゐる情報は,アクセシビリティ(accessibility)が高いと表現される。

これは特定のハンディキャップに對して有意になるやうな配慮ではなく,あらゆる人々が共通して情報にアクセスでき,認知でき,利用できるやうにする,ユニヴァーサルな情報設計の事である。ただし,ハンディキャップが重度になる程,享受される恩惠も大きい。

アクセシビリティの情報および知識,活動は,アクセシビリティ・ユーザビリティ關聯(リンク集)にまとめてある。

ユーザビリティ(usability)

端的に言ふなら,使ひやすさ。文書群で一貫した操作性が得られるか,目的の情報に辿り着きやすいか,サイトの構造を學習しやすいか,エラーが生じ難いかなど,サイト全體の統一的な使ひ勝手の度合ひ。具體的には,ナヴィゲーションの使ひやすさなど。

この覺書では扱はず,概説も行なはないので,アクセシビリティ・ユーザビリティ關聯(リンク集)を參照のこと。

インターネット(The Internet)

世界規模で相互に接續されてゐるコンピュータ同士の分散型ネットワークのこと。

しばしば一般ユーザは「インターネットする」「インターネットを見る」などと表現するが,誤用。ネットワークとは,コンピュータ同士が "接續されてゐる状態" を指すのであり,それだけでは何かを閲覽したり,實行したりは出來ない。我々が日常的に閲覽してゐるものは,インターネットに接續されたWWWサーヴァに置かれてゐるリソースを,User AgentがHTTPに基いて取得し,解析し,レンダリングした結果である。

インターネット上のWWWサーヴィスを利用してリソースを閲覽ことを「ウェブブラウズ(web browse)する」と呼ぶ。

WWWのハイパーリンクは「情報の網の目」を形成するイメージであつて,物理的な接續ではない。すなはち,インターネット上のコンピュータ同士の接續とは,獨立してゐる。WWWにリソースを公開しても,インターネットのネットワークを形成する訣ではない。

文字集合(Character set)

大雜把に言ふと,何らかの體系に基づいた,抽象的な文字の集合とその符號位置を定めたもの。

文字符號化方法(Character encoding)

大雜把に言ふと,ひとつ以上の文字集合の組合せで,文字表現に用ゐる順序づけられたビットの集合。

符號化の方法は,文字集合に一對一に對應する單純なものから,複雜な切替へ方式まで樣々である。

擴張子(filename extension)

ファイルの種類を識別するために,ファイル名の末尾に附けられる文字列。擴張子はピリオド(.)で區切られ,その直後にはa〜zA〜Zと數字から成る文字列が續く。3〜4文字程度の場合が多い。大文字と小文字の區別はシステムに依る。

擴張子をどのやうに活用するかは,ファイルシステムに依つて異る。OS上ではアプリケーション-ソフトウェアとの關聯附けに用ゐられる場合がある。ウェブ上では,HTTP應答ヘッダのContent-Typeフィールドで設定される; たとへばApacheでは.htaccessといふファイルで設定する。しかし無料サーヴィスのほとんどではその樣な權限を與へてゐないので,設定を変更するには管理者に頼るほかはない。

一般的なサーヴァでは,HTML文書(text/html)として送出される擴張子は,慣例的に *.htm または *.html である。HTTPヘッダを設定できるなら別の擴張子にもでき,またContent Negotiationを用ゐれば擴張子なしでもアクセス可能になる。

ローカルでも *.htm もしくは *.html で判斷される場合が多いが,これは設定次第でどうにでもなる。

テキスト(text)

テキスト(text)とは,「人間が讀んで理解できる」文字データの列なり,もしくはそのリソースのこと。

用字系(script)

國家や地域,民族など,或特定のコミュニティで共通して用ゐられる,一揃ひの文字體系のこと。

用字系といふのは,必ずしも特定の言語と“一對一”の關係にあるとは限らない。たとへば,ラテン文字は英語などで用ゐられるが,元々はラテン語の表記に用ゐるものであつた(今でも學術用語などで用ゐる)。現今ラテン文字は,歐米を中心として,世界中の言語にひろく普及してゐる。私たちの日本語もご存知のとほり,ローマ字表記が可能である。また中國語も,ピン音と呼ばれるラテン轉寫法がある。

たとへば "中國語" と雖も,必ずしも漢字表記とは限らない。ピン音表記でも中國語なのだから。

從つて,テキスト整形を處理する際に重要になるのは "用字系" であつて,言語ではない。ただし言語慣習に合せた整形規則を必要とするなら,それらは尊重する必要がある――たとへば文字の竝べ方,兩端揃へ,語區切り,行區切りなどの規則。

表意空白

JISの定義では「和字間隔」のこと。Unicodeにおける "Ideographic Space"(U+3000)のこと。

日本では「全角スペース」の俗稱で呼ばれるが,適切な呼び名ではない。下記參照。

ASCIIスペース

ASCIIの32(0x20)番目の文字で,最も一般的なスペースとして使用されてゐる。

日本では「半角スペース」の俗稱で呼ばれるが,適切な呼び名ではない。下記參照。

#:ナンバーサイン(Number-sign),ハッシュ(hash),番號記號,井桁

ASCIIの35(0x23)番目で,番號を示す數字の前に置かれる約物。No.と類似。重さのポンドも表す。

ウェブにおいては,URI末尾に附ける部分識別子として,リソースの内部を示すのに使はれる。これはウェブを創成したTim Berners-Lee氏が,アパートの "部屋番號" からアイデアを得た,との謂がある。ただし實際には,數字だけの名前は好ましくはない。

コンピュータ向け言語では,何らかの區切り文字やコメントに使用される事も多い。ハッシュとも呼ばれる。

この符号は ":Music Sharp-sign" とよく間違へられるが,別物である。シャープ符号は,横線が右上がりに傾いてをり「五線」と重ならないやうに工夫されてゐる。一方の "#:Number-sign" はといふと,逆に縱線が傾いてゐて,横線は水平なのが特徴。

しかしシャープ符号を用ゐにくいコミュニティでは,代用文字としてナンバーサインを用ゐる場合がある。

ASCII:アスキー(American Standard Code for Information Interchange)

情報交換用米國標準符號。1963年,ANSIの前身であるASAにより策定された,基礎的な文字集合。

ASCIIの國際仕樣としてのISO-646,日本仕樣としてのJIS X 0201など,各國仕樣が存在する。ISO-646では指定される12文字については各國で自由に決めてもよいと定めてゐるので,JIS X 0201ではバックスラッシュ(0x5C)の替りに「圓記號」(¥)が,チルダ(0x7E)の替りに「オーヴァーライン」()が割り當てられてゐる。これは現在の文字符號化方法でも円記号問題に影響を及ぼしてゐる。

ASCIIでは先頭からの32文字,末尾のDEL:127(0x7F)は制禦文字として豫約されてをり,ASCII 33(0x21)〜126(0x7E)の範圍は印刷可能な文字として基本ラテンアルファベット(a〜zA〜Zの52文字)と數字,約物(句讀點や括弧等)を表現する。

ASCIIは7ビット符號で文字數が少く,歐洲や中南米などで廣く利用されるダイアクリティカルマークつきのラテン文字を表現できない。そのため西洋などでは8ビット擴張のISO-8859-1(通稱名でLatin-1とも)などが利用されてゐる。そのほか,世界中で使用されてゐる樣々な文字符號化方法の多くは,ASCIIで使用されてゐない128(0x80)以降の領域に,文化圈に應じた文字集合を割り當ててゐる。

ASCII文字列,ASCIIアルファベット,半角全角

ASCII文字列とは,ASCIIに含まれる文字列のこと。ASCIIアルファベットとは,ASCII文字列に含まれる,アクセント記號などが附いてゐない基本ラテンアルファベット(a〜zA〜Z)のこと。本來 "アルファベット" といふ呼稱は,國際的・言語學的な見地では,ラテン用字系に限られるものではなく,一々の文字が原則として一つの音素をあらはしてゐる,表音文字體系の總稱のことを意味する。

日本でもぱつら「半角」と呼ばれるものは謂はゆる「半角カナ」を除いて,ASCII文字列を指す。「半角」といふ呼び名は,固定ピッチ(等幅グリフ)の和文フォントにおいて,ASCII文字列のグリフ幅がそのほかに對して半分になることに由來してゐる。

しかし,プロポーショナルなフォントではグリフ幅は一定ではなく,たとへば "i" "l" などのグリフは極端に狹くなり,"O" "M" といつたグリフは廣い幅にデザインされる。つまり半角にはならない。そもそも文字集合や符號化方法では文字幅を規定しない。

要するに「半角」と「全角」の概念は,固定ピッチの和文フォントでなければ成立し得ないのである。

Unicodeには互換性確保のために,ASCII文字列に似てゐる "Fullwidth …",いはゆる「半角カナ」に相當する "Halfwidth katakana" などの分類が存在してゐるが,これらは慣習的な呼稱をそのまま採用したものであつて,グリフ幅の規定ではない。

また文字を何バイトで符號化しようが,グリフ幅との必然的な關聯はない。フォント設計の慣例に依る。

改行と折り返し

text/plainのリソースにおいては,編輯者が意圖を持つて行を改めることが "改行" である。これは一般に,ASCIIの制禦文字であるLF:Line Feed(0x0A)CR:Carriage Return(0x0D)で行はれる。この兩者は改行(制禦)コードと呼ばれる。

HTML文書ではこれら改行(LFとCR)は單なる語の區切りに過ぎず,行を改めるといふ行爲ではない。一般にこれら空白類文字の列なりは單一のASCIIスペースに纏められるので,行區切りの明示を行ふにはbr要素を用ゐる。これについてHTML 4仕樣では,改行(newline)として新しい行を生成するものといふより,強制的な行區切り(forced line break)――行を終らせるもの,として説明されてゐる。

ただし既に "整形濟み" であると傳へるpre要素内では例外で,空白類はそのままレンダリングされる。

視覺系ブラウザにおいて,一續きの長いテキストをその時點での表示域(viewport)の幅に應じて,次の行へ,さらに次の行へと,次から次へと送り込ませて行くレンダリング機能のことは自動的なテキスト折り返し(automatic text wrapping)と呼ぶ。これは逐次的に「改行」を挿入してゐる訣ではなく,あくまで一續きのテキストを「折り返し」てゐるのである。つまり「自動改行」といふ表現は適切でない。

改行コードCRとLFは元來,プリンタを直裁的に制禦するもので,LFといふのは1行の出力ごとに用紙を次の行へ送るコードとして,CRといふのは印刷機のヘッド(昔のTTYではキャリッジ)を行頭に戻すコードとして利用されてゐた。現今のGUI環境では,單なる視覺效果を生成するに過ぎない。一般にWindowsではCR/LFのペアで利用され,MacOS 9以前ではCR(MacOS XではLFも利用される),Unix系ではLFが利用されてゐる。高機能なテキストエディタでは,讀込時に改行コードを自動判別したり,保存時に改行コードの組合せを選擇できる場合もある。