2014/03/31 CentOS6.5/PandoraFMS5.0SP3





Pingに3回応答しなかったらメールを送信する(V5.0)

これはPandora FMS V5.0による設定です。
V6.0/7.0での設定は「Pingに応答しなかったらメールを送信する(V7.0)」を参照してください

特に多いパターンと思われます。
応答が確実でないPingに一回応答しなかっただけでメールを送信していては騒がしいです。
3回ほど連続してダウンしていたら、ダウンとみなします。

ここでは以下の設定を想定します。

・Pingの送信間隔は1分
・3回応答しなかったら、メール送信を行う

運用環境に合わせ、適宜変更してください。




Ping監視・HostAliveモジュールの設定方法は、Pingに応答しなかったらメールを送信するを参照してください。



1.3回応答しなかったら障害を発生させるアラートを作成する


管理メニューの[アラート]から[テンプレート]を選択します。


アラートからアラートテンプレートを作成します。
ここではわかりやすく名前を「Critical condition (3 poll error)」としています。
優先度は「障害」、条件種別は「障害状態」を選択します。



3.ステップ2障害通知


障害発生条件を設定します。
再通知間隔 10年
最小アラート数 2  最大アラート数1
拡張フィールド メール文
通常のアクション Mail to XXX


フィールド2にメールタイトル。フィールド3にメール本文を設定。

フィールド2
[BIZ-System] Critical _agent_

フィールド3
Module: _module_
Agent: _agent_
Timestamp _timestamp_
Current value: _data_

再通知間隔はデフォルトで1日になっています。これでは機器を取り外したり、数日間ダウンさせている場合、毎日メールが送信されてしまいます。再通知間隔をとりあえず10年に設定しました。

最小アラートと最大アラートはあたかも対になっている印象を受けますが、異なる設定です。
最小アラートはアラートを何度無視するかです。最小アラートが2なら、2回までのモジュールアラートを無視し、3回目をアラートとして発生させます。

最大アラート数はアラートアクションを継続的に実行し続ける回数です。
PandoraFMSは障害が継続している場合、継続してアラートを発生させ続けます。
メールでいえば、HostAliveで1分おきに監視しているなら、機器ダウン後は1分おきにアラートメールを送信しつづけることになります。
最大アラーム数が3になっている場合、4回目以降のアラートメールは送信しません。

再通知間隔は、このアラーム数をクリアする間隔です。
再通知間隔が1日に設定されている場合、一日立つとまたメールが3回送信されます。
再通知間隔が0なら、0秒でアラーム数がクリアされ、1分おきにアラートメールを送信し続けます。



4.ステップ3復旧通知

復旧アラートを「有効」に設定します。

フィールド2にメールタイトル。
フィールド3にメール本文を設定します。

フィールド2
[BIZ-System] Recover _agent_

フィールド3
Module: _module_
Agent: _agent_
Timestamp _timestamp_
Current value: _data_




5.HostAliveモジュールの設定を確認する


[エージェント管理]-[エージェント名]-[モジュール]-[HostAlive]をクリックし、設定を確認します。



監視間隔を1分に設定します(デフォルトは2分)。
連続抑制時間隔は0回にします。



6.アラートの設定


対象エージェントのアラートタブを選択して、アラート追加をクリックします。

モジュール HostAlive
テンプレート Critical Condition (3 poll error)
アクション 通常のアクション



7.試験します

対象エージェントのケーブルを抜いて、通信をダウンさせます。
1回目のPingロストでHostAliveのイベントが発生します。
3回目のPingロストで「Critical condition (3 poll error)」が発生します。

HostAliveエラーイベントが3回発生しても、まとめられて一回で表示されます。

Ping間隔は1分、3回のPing失敗なので、およそ3分後にメールアラートが発生します。
1回目のポーリング直前にダウンした場合、およそ2分少々の間にポーリング3回が行われます。
正確にはアラート発生までに30秒ほどあるので、2分30秒から最長3分30秒ほどでアラート発生します。

再びケーブルを接続してオンラインにすると、1回のPing成功で回復アラートが発生します。







prev.gif