正しい作り話の作り方(端末障害切り分けマニュアル)

 トレンドマイクロのウィルスバスター、4月23日のパターンファイルでWindowsXPが止まってしまうという障害があった。やっと出てきたトレンドマイクロの原因分析は、間抜けだがありそうなことである。「ボットの検知」を実現するために、パターンファイル内に特殊な圧縮形式を判別するプログラムを入れるようになったにも拘わらず、テストする側はパターンファイルはデータと簡単なスクリプトだけを含んでいるという前提のまま、パターンが正しいかというチェックに重きを置いていたらしい。

 ちなみに、こいつらの認識が間抜けなところは結局「チェックはするが、テストはしない」という企業文化を改善しようとしていないことである。この発想では、パターンが正しいか、に加えてプログラムが正しいか、をチェックするようになるのがせいぜいであろう。実際にウィルス対策ソフトをコンピュータ上で動かしてテストするという必要性は引き続き認識していない。というわけで、例えばMS-Windowsのシステムファイルをウィルスと誤認して警告を発する問題は無くなりそうもない。
 まあ唯一救えるところは、テストを日本IBMに委託したことである。毎月のように新たなパッチが発行されているMS-Windowsのさまざまなテスト環境を自前で整備するのは確かに辛い。ならば信頼のおける他社に委託するというのは、間違った判断ではない。

 今回は、日経コンピュータ「動かないコンピュータ」に載っていたトレンドマイクロのウィルスバスターを使っていた共同通信社の愚かさをネタにしよう。トレンドマイクロ本体ならともかく、一次的には被害者である共同通信社の対応をあげつらうのは品位に欠ける。しかし、一歩間違えれば加害者になっていたことは認識して頂きたい。いや、多分自分では気がついていないが本当は加害者になっていたのだろう。

 さて、共同通信社では、4月23日の朝、電子編集システムのパソコンが軒並み使えなくなったらしい。あわてた編集者はシステム部門の皆様を呼び出し、この人たちが復旧に当たったらしい。ここまでは問題がない。
 彼らの苦闘は始まった。同情に堪えない。何が起きているの分からないので、通信回線を調査したり、パソコンが接続されている電子編集システムを調査したらしい。で、パソコンが通信できているかどうかをpingを使って調べたらしい。
 もし、これらのパソコンが例えばハードディスクを持たないThin-Clientであればこの調査手順は正しい。でも、事象は全部のパソコンがフリーズしているってことだろ、回線調査の必要は薄いだろ。回線が止まったからといってパソコンがフリーズするわけじゃないだろ。確かに通信回線を使ったアプリケーションが応答を返さない場合はある。でもフリーズはしないだろう。
 pingを使ったのは間違いではない。ところで日経コンピュータのpingを「通信できているか」の確認のために使ったという表記は間違ってんでしょ。本当はOSが動いているかの確認に使ったんでしょ。で、pingは返ってきた。ということは、OS本体は動いており、ハングアップしていないことは分かる。

 で、みなさん、何を最初に疑うカネ?複数のパソコンが同時にフリーズした。私は最初にウィルスを疑う。でも共同通信社のシステム部門は疑わなかったみたいだ。

 日経コンピュータの記者は素人のようだ。こんなことを書いている。《10時すぎになって、ある担当者がセーフ・モードで起動すれば、正常にパソコンが立ち上がることを発見した。(中略)実は、トレンドマイクロがWebサイトなどを通じて公表した復旧手順も、同じものだった。この時点では共同通信社はそれを知らず、自力で偶然に障害回避方法を見つけ出した。》共同通信社は抗議すべきだ。パソコンがフリーズした。再起動してもフリーズする。なら、セーフ・モードを試すのは当然の動きであり「偶然」などではない。日経コンピュータの記者は誉めているつもりかもしれないが、実は馬鹿にしている。この記者2〜3年システムの現場で苦労させたらどうかねえ。
 なお、こういう場合に試してみる方法はもう一つあって、漢字Talk7という単語の意味が分かるMacユーザーなら「まず」CD-ROMブートを試みるであろう。

 ただし、共同通信社のシステム部門も本当に分かっていたのかどうかは疑問である。というのは、原因不明のままセーフモードで再起動してニュース作成・配信作業を再開することを容認したからだ。
 セーフモードで起動して、電子編集の社内システムが使えるというのも凄いが(自信をもって動くと判断できたとしたら、それはそれですごい)、ウィルス感染が最も疑われる状況でウィルスチェックのかからないセーフ・モードで仕事をさせたというのが凄い。しかもこれ、ネットワークを使ったアプリケーションである。
 とてつもない損害が出た可能性があるのだ。というのは電子編集システムはニュースを外部から受け付け、外部に配信するシステムだから。つまり外部とネットワークでつながっている。そこにウィルスに感染した可能性の極めて高いパソコンをウィルスチェックなしで繋いでいるのだ。外部からMS-Blasterが侵入したらどうなる、ZeroDayAttackのウィルスなら共同通信社を媒介に全マスコミが停止するぞ。

 好意的に見よう。システム部門は、担当役員まで出てきたというが、記者たちに押し切られたのだろう。日経BPの取材がやってきたとき、その辺を包み隠さずマトモに答えてしまった。
 では、彼らはどう言い繕えばよかったのだろうか。

 連絡を受けてやってきた我々はまず原因究明に全力をあげました。全てのパソコンがほぼ同時に応答しなくなったという事象から、まずウィルスを疑いました。そこでファイアーウォールサーバが正常に稼働していることを確認した上で、ZeroDayAttackを懸念して外部ネットワークにつながるルーターを停止させました。ネットワークが動いていたところで編集システムが止まっていては外部にデータは渡せませんから業務の状態は今よりは悪くなりません。しかし、顧客にウィルスを配布するというリスクは避けられます。
 ただし、外部からのデータを自動的に処理して配信する気象情報は止めるわけにはいけません。これについてはコンテンジェンシープランができており、それに沿ったネットワーク設計がされていますので、気象情報自動配信サーバは内部ネットワークから切り離し、配信を続行しました。

 対応チームを編成する際に1人を新種ウィルスに対しての情報収集にあて、トレンドマイクロにも情報提供を依頼しました。
 その他の者は分担して、MS-Windows端末が応答しなかった場合の対応手順に基づいた障害切り分けを実施しました。同一ネットワーク上のWSから該当端末にpingを打ち、パケットが正常に処理されていることを確認しました(ところで応答時間は長かったのだろうか、長いとするとアプリケーション過負荷がここで疑われるのだが)。OS自体はハングアップしていないことが判明したため、アプリケーションの障害を疑いました。なお、別の1台についてpingへの正常応答を確認したあと、CD-ROMブート/FDブートを実施し、ハード障害でないことを念のため確認しました。(複数台のハードが同時に壊れることは、いくら同一ロットでも考えにくいが、優先度をやや下げてでも確認することは大事。たいした手間じゃないんだから。ハードウェアの正常動作確認切り分けソフトがあれば、それを併用するのもいいかも。)
 障害端末は再起動しても同様にフリーズしてしまいます。従ってOS起動時に動作するアプリケーション障害が疑われます。従って切り分けのため、SafeModeでの起動を実施しました。この場合、正常に稼働し、かつネットワークに繋いでも正常に起動・稼働することより、常駐プログラムに問題があると判断しました。(ホントに困るのは、常駐プログラムと例えば業務アプリケーションがコンフリクトする場合。これは切り分けに時間がかかります。今度は「この端末、昨日とどう違うか」を疑わないといけません。)

 セーフモード下でスタートアップフォルダおよびレジストリ(具体的にどこかは失念)をチェックし、不明なプログラムが自動起動しているのではないことを確認しました。(ここでウィルスバスターが原因のようだ、というのはだいたい見当がつくが、マニュアル通りやったフリをしよう)。ここで現場での「一刻も早い業務再開を」という要望が強かったため、ファイアーウォールサーバのウィルス対策ソフトが正常に稼働していることを確認し、電子メール、インスタントメッセンジャーの使用、Webの閲覧を禁止するという条件の下に使用を許可しました。(原因不明のまま使用せざるを得ない場合もあるけど、こういう言い訳は必須ですよ。)

 障害となった端末を何台かお借りして、問題となりそうなプログラムの自動起動を順次止めてみると(レジストリのバックアップは止めておくのよ。まあ、MS-Windowsの提供するサービスは優先順位低いとして右下のタスクトレイにいる連中が疑わしいよなあ)、ウィルスバスターを止めたところで正常に稼働することが判明しました。

 トレンドマイクロには情報提供を依頼していましたが、それまでのところ連絡はありませんでした。が、改めて照会しますと23日朝のパターンファイルに不具合がある旨回答がありました。原因判明です。(まあ、マニュアル通りやれば1時間で原因究明ですな。)
(とりあえず、ウィルスの可能性は無くなったので、一安心と強弁できます。が、無防備なクライアントをインターネットにさらしておくと30分でウィルスに感染し、自ら伝染源となるのは有名な話だよね。だから多分加害者になってただろう、というの。)

 トレンドマイクロに「具体的にどうすればいいの?」と聞いても「修正法を検討中」だったろうから、仕方ない、自分で直し方を考えよう。まあ手動でパターンファイルの更新をやって人間ならやり方は分かるだろうが、100台を相手にするとなると別の着眼点が必要。端末のプログラムメンテナンス用のアプリ次第なのだな。強制的に新しいファイルを送り込む、ということができれば、正常なパターンファイルを該当ディレクトリに送って再起動させればいい。問題のパターンファイルはそのままでもいいけど、気になるのなら削除するか、それが不可能なら同名の0バイトのファイルで上書きするか?
 そうでなければ、いちいちAdministrator権限で、約100台のパソコンのパターンファイルを入れ替えて回るんだろうなあ。やだなあ。(UNIXがうらやましいのはこういうとき。スクリプトのオーナーをrootにすれば・・・。)

 しかし、トレンドマイクロの新パターンファイル提供が遅れてしまったら、さあどうしましょう。ウィルスフリーのままいるしかない。まあ共同通信社は夕刊向け作業が一段落するまで復旧作業に着手しなかったんだから半日以上ウィルスフリーでいたんだけど。100台分のウィルス対策ソフトをすぐに買ってくるのも辛い。AVGもavast!も商用なら無料で使わせてくれない。やっぱり普段から半分のPCは別のウィルス対策ソフトを入れておかないとね。というわけで提案。
「トレンドマイクロは、半分のPCに他社のウィルス対策ソフトが入ることを前提に、サイトライセンスの料金を半額にしろ!」
これでサイト内の端末が全滅する会社があれば、それはその会社が悪い。

 トレンドマイクロ、および共同通信社はこの言い繕い指南(実は端末障害対応マニュアル)、どの程度の価値があると考えてくれるだろうか。
 まあ、私のページを読んでくれる人に価値があれば十分なんだけどね。(無い!といわれると辛い。でも、共同通信社のシステム部門には参考になるはずだから、きっと誰かの役に立つ。)

コンピュータネタ、目次
ホーム