2013/04/02 CentOS6.5/PandoraFMS5.0SP3





[解説] Pingに3回応答しなかったらメール送信、の仕組み

※このページは仕組みについて説明します。
具体的な設定は
Ver5.0 「Pingに3回応答しなかったらメールを送信する(V5)
Ver6.0/7.0 「Pingに3回応答しなかったらメールを送信する(V7)
を参照してください。

※このページの情報はV5の情報です。

監視システムで一番メジャーな死活監視は定期的なPingです。
Ping確認頻度が5分おきなのか1分おきなのかは、システム環境の必要性によって異なります。

一回のPingロストでエラーを出すと、ちょっとしたパケ落ちでダウンアラームが発生することになります。
ダウンが発生すれば回復も発生するので、頻繁な誤報は監視の質を落とします。
「連続○回Pingダウンが発生したらメール送信」と、弾力的な監視にすると良いでしょう。

ここでは一例として 「一分毎にPingを送信し、3回応答がなかったら(つまり3分応答なし)メールを送信する」の仕組みについて説明します。

しかしPandoraFMSではこの動作について、少しクセがあります。
複数の設定を組み合わせて監視するため、複雑になりがちです。

結論 2種類の実現方法が考えられる。それぞれ挙動が異なる

1.モジュールの抑制間隔を設定するパターン
2.アラートテンプレートの最小アラーム数を設定するパターン

PandoraFMSのマニュアルに書いてあるのは1です。
一方、他の監視システムでよく採用されている仕組みは2です。

「使用モジュールはHostAlive」、「アラートは3回目に発生させる」を前提に勧めます。

1.モジュールの抑制間隔を設定する 2.アラートテンプレートの最小アラート数を設定する
モジュールの連続抑制時間隔を2に設定する。
アラートテンプレートの最小アラート数を0に設定する。

モジュールの連続抑制時間隔を0に設定する。
アラームテンプレートの最小アラートを2に設定する。

HostAliveモジュールの障害イベントは、3回目のポーリングが失敗のときに発生し、アラートも同時にも発生する。
1回目、2回目のPingロストの事実は記録されません。

HostAliveモジュールの障害イベントは、1回目のポーリング失敗のときに発生する。
アラートは3回目のポーリング失敗のとき発生する。
1回目(障害イベント)、2回目(障害イベント)、3回目(障害イベント・アラート発生)
回復イベントが発生するにも同じく3回のポーリング成功が必要
つまり回復イベントの発生は、ダウンから最短3分必要。

回復イベントは1回目の成功で発生
つまり回復イベントはダウンから最短1分。

 障害イベントは、画面上のアイコンがレッドになること。回復イベントはグリーンに戻ること。
 アラートはメール送信と考えるとわかりやすいでしょう。

追記 Pandora FMS V6以降では障害発生までの抑制間隔と復旧までの抑制間隔に別の値を設定できるようになりました。それにより「1.モジュールの抑制間隔を設定する」でも、「3回のポーリング失敗で障害、1回のポーリング成功で復旧」の動作が可能です。


連続抑止回数の項目を読むと、「何回発生したらダウンとみなすか」とそれらしいことが書いてあります。
しかし重要なことが書いてありません。
それは「何回で回復とみなすか」です。
機器が長時間にわたりアップダウンを繰り返している状態なら、障害は回復していない。と判断するなら1をチョイスします。
そういった事象はあまり起きない環境で、ダウンによる警告メール・アップによる回復メールを送信するという運用を行うなら、2を選択します。


以下に、モジュールの連続抑制時間隔の設定と、最小アラート数の設定の動作の違いを比べます

経過
時間
1.モジュールの抑制間隔[2]
成功
状態
2.アラートテンプレートの最小アラート[2]
1



2


3

×  障害イベント
4

 回復イベント
5

6 1
× 1 障害イベント
7 2
× 2
8 障害イベント 3
メールアラート  
× 3 メールアラート
9
×
10 1
 回復イベント発生(メール)
11 2

12 (メール)回復イベント発生 3

13



1は、1回のポーリングミスではアラートはおろかイベントも発生させません。
そして、回復はシステムの安定を確認してからメールします。

2は1回のメールダウンでもイベントを発生させます。
回復は、一度でも通信が確認できた時点でメールを送信します。

環境によって異なることは承知しつつ、PandoraFMSのマニュアルにもあるとおり基本は1です。
ですが、やはり他の監視システムでも採用されている2のほうが使い勝手が良いでしょう。


ついでに

アラートテンプレートの最大アラートとは、何度まで警報を連続させるかです。
アラートは基本、ポーリングのたびに発生します。
1分おきにPingエラーが発生し続けているのなら、1分おきに警告エラーメールが送信されます。
最大アラートが3に設定されている場合、警告エラーメールは連続3回送信されたのち、抑止されます。
もし最大アラートが「0(上限なし)」なら、際限なくメールが送信されます。

最大アラートが3で、再通知間隔が1日の場合。アラートが継続しているのなら、1日経つと警告メールを3通送信します。
再通知間隔とは、最大アラートのカウントをクリアする間隔です。







prev.gif