Compaq OpenVMS
OpenVMS Cluster システム


前へ 次へ 目次 索引


C.10.8 LAN 接続の確認

付録 D.4 節 で説明している Local Area OpenVMS Cluster Network Failure Analysis Program では, HELLO データグラム・メッセージを使用して,PEDRIVER で使用されるネットワーク・パス (チャネル) を継続的にチェックします。このチェック・プロセスをネットワークの物理的な記述と組み合わせると,以下のことが可能になります。

C.11 ポート・デバイスのエラー・ログ・エントリの分析

エラー・ログに記録されたイベントを監視すると,問題を予測し,回避するのに役立ちます。エラーの総数 (DCL コマンド SHOW DEVICES device-name によって表示) から,エラーが増加しているかどうか判断することができます。その場合,エラー・ログを確認しなければなりません。

C.11.1 エラー・ログの確認

DCL コマンド ANALYZE/ERROR_LOG は,Error Log ユーティリティを起動して,エラー・ログ・ファイルの内容を報告します。

関連項目: Error Log ユーティリティの詳細については,『Compaq OpenVMS システム管理ユーティリティ・リファレンス・マニュアル』を参照してください。

エラー・ログ・エントリの中には,単に情報を提供するだけのものと,操作が必要なものがあります。

表 C-5 情報を提供するエラー・ログ・エントリとその他のエントリ
エラーの種類 操作が必要か 目的
情報エラー・ログ・エントリに対しては,操作は必要ない。たとえば,クラスタ内のコンピュータをシャットダウンすると,そのコンピュータとの間に仮想サーキットをオープンしている他のすべてのアクティブ・コンピュータのエラー・ログにエントリが作成される。このようなコンピュータは,イベントに対して最大 3 つのエラーを記録する。

  • Path A received no response. (パス A が応答を受信しなかった。)

  • Path B received no response. (パス B が応答を受信しなかった。)

  • The virtual circuit is being closed. (仮想サーキットがクローズされている。)

不要 これらのメッセージは正常終了メッセージであり,シャットダウンされたコンピュータとの間のサーキットの状態が変化したことを反映するものである。
その他のエラー・ログ・エントリは,パフォーマンスの低下や,致命的でない問題がハードウェアにあることを示す。このような状況では,オペレーティング・システムは問題なく操作を続行できる。 必要 致命的でない問題 (たとえば 1 つの CI パスが失われたなど) が深刻な問題 (たとえば両方のパスが失われたなど) にならないようにするには,これらの問題を早期に検出することが重要である。

C.11.2 形式

CI,DSSI,LAN 上でエラーや他のイベントが発生すると,ポート・ドライバは以下の 2 種類の形式のいずれかで,システム・エラー・ログに情報を記録します。

これらの形式については, 付録 C.11.3 項付録 C.11.6 項 を参照してください。

C.11.3 CI のデバイス・アテンション・エントリ

例 C-6 は,CI のデバイス・アテンション・エントリを示しています。左側のカラムには,デバイス・レジスタまたはメモリ・ロケーションの名前が示されています。中央のカラムには,そのレジスタまたはメモリ・ロケーションに格納されている値が示され,右のカラムにはその値の説明が示されています。

例 C-6 CI のデバイス・アテンション・エントリ

************************* ENTRY    83. **************************** (1)
ERROR SEQUENCE 10.                     LOGGED ON:      SID 0150400A 
DATE/TIME 15-JAN-1994 11:45:27.61                 SYS_TYPE 01010000 (2)
DEVICE ATTENTION    KA780                                           (3)
                    SCS NODE: MARS 
 
CI SUB-SYSTEM, MARS$PAA0: - PORT POWER DOWN                         (4)
 
      CNFGR           00800038 
                                      ADAPTER IS CI 
                                      ADAPTER POWER-DOWN 
      PMCSR           000000CE 
                                      MAINTENANCE TIMER DISABLE 
                                      MAINTENANCE INTERRUPT ENABLE 
                                      MAINTENANCE INTERRUPT FLAG 
                                      PROGRAMMABLE STARTING ADDRESS 
                                      UNINITIALIZED STATE 
      PSR             80000001 
                                      RESPONSE QUEUE AVAILABLE 
                                      MAINTENANCE ERROR 
      PFAR            00000000 
      PESR            00000000 
      PPR             03F80001 
 
      UCB$B_ERTCNT          32                                      (5)
                                      50. RETRIES REMAINING 
      UCB$B_ERTMAX          32                                      (6)
                                      50. RETRIES ALLOWABLE 
      UCB$L_CHAR      0C450000 
                                      SHAREABLE 
                                      AVAILABLE 
                                      ERROR LOGGING 
                                      CAPABLE OF INPUT 
                                      CAPABLE OF OUTPUT 
      UCB$W_STS           0010 
                                      ONLINE 
      UCB$W_ERRCNT        000B                                      (7)
                                      11. ERRORS THIS UNIT 
 

以下の表は, 例 C-6 に示したデバイス・アテンション・エントリについて説明しています。

エントリ 説明
(1) 最初の 2 行はエントリの見出しである。これらの行には,このエラー・ログ・ファイルでのエントリの番号,このエラーのシーケンス番号,このコンピュータの識別番号 (SID) が示される。ログ・ファイルの各エントリには,このような見出しが記録される。
(2) この行には,日付,時刻,コンピュータの種類が示される。
(3) 次の 2 行には,エントリの種類,プロセッサの種類 (KA780),コンピュータの SCS ノード名が示される。
(4) この行には,エントリが記録される原因になったサブシステムおよびデバイスの名前と,エントリの理由が示される。この例では, MARS の CI サブシステムのデバイス PAA0 の電源がオフになっている。

次の 15 行には,ポート内のハードウェア・レジスタの名前,各レジスタの内容,それぞれの内容の説明が示される。すべての CI ポート・レジスタの詳細については,適切な CI ハードウェア・マニュアルを参照。

(5) UCB$B_ERTCNT フィールドには,ポート・ドライバがまだ試すことができる再初期化の数が示される。この値と UCB$B_ERTMAX の差が,すでに試された再初期化の数である。
(6) UCB$B_ERTMAX フィールドには,ポート・ドライバがポートを再初期化できる最大数が示される。
(7) UCB$W_ERRCNT フィールドには,ブートされてからこのポートで発生したエラーの総数が示される。この総数には,ポートの再初期化によって発生したエラーと,それ以外のエラーが含まれる。

C.11.4 エラーからの回復

CI ポートは多くのエラーから回復できますが,すべてのエラーから回復できるわけではありません。CI で回復できないエラーが発生した場合,以下の処理が行われます。

ステップ 操作
1 ポートがポート・ドライバに通知する。
2 ポート・ドライバはエラーをログに記録し,ポートを再初期化しようとする。
3 このような初期化を 50 回繰り返した後,ポート・エラーから回復できない場合,ドライバはポートをオフラインにする。ただし,システム・ディスクが障害のあるポートに接続されている場合や,このコンピュータがクラスタ・メンバであると考えられる場合は,ポートはオフラインにならない。
4 システム・ディスクへのアクセスやクラスタに参加するために CI ポートが必要であり,再初期化を 50 回繰り返した後も,エラーから回復できない場合は,CIPORT タイプのバグチェックによってコンピュータはバグチェックを行う。

CI ポートがオフラインに設定された後,コンピュータをリブートしなければ,ポートをオンラインに戻すことはできません。

C.11.5 LAN のデバイス・アテンション・エントリ

例 C-7 は,LAN のデバイス・アテンション・エントリを示しています。左のカラムには,デバイス・レジスタまたはメモリ・ロケーションの名前を示しています。中央のカラムにはそのレジスタまたはメモリ・ロケーションに格納されている値を示し,右のカラムにはその値の説明を示しています。

例 C-7 LAN のデバイス・アテンション・エントリ

************************* ENTRY   80. ****************************  (1)
ERROR SEQUENCE 26.                    LOGGED ON:      SID 08000000 
DATE/TIME 15-JAN-1994 11:30:53.07                SYS_TYPE 01010000  (2)
DEVICE ATTENTION  KA630                                             (3)
                  SCS NODE: PHOBOS 
NI-SCS SUB-SYSTEM, PHOBOS$PEA0:                                     (4)
       FATAL ERROR DETECTED BY DATALINK                             (5)
 
       STATUS1         0000002C                                     (6)
       STATUS2         00000000 
       DATALINK UNIT       0001                                     (7)
       DATALINK NAME   41515803                                     (8)
                       00000000 
                       00000000 
                       00000000 
                                       DATALINK NAME = XQA1: 
       REMOTE NODE     00000000                                     (9)
                       00000000 
                       00000000 
                       00000000 
       REMOTE ADDR     00000000                                     (10)
                           0000 
       LOCAL ADDR      000400AA                                     (11)
                           4C07 
                                       ETHERNET ADDR = AA-00-04-00-07-4C 
       ERROR CNT           0001                                     (12)
                                       1. ERROR OCCURRENCES THIS ENTRY 
       UCB$W_ERRCNT        0007 
                                       7. ERRORS THIS UNIT 

以下の表は, 例 C-7 に示した LAN のデバイス・アテンション・エントリについて説明しています。

エントリ 説明
(1) 最初の 2 行はエントリの見出しである。これらの行には,このエラー・ログ・ファイルでのエントリの番号,このエラーのシーケンス番号,このコンピュータの識別番号 (SID) が示される。ログ・ファイルの各エントリには,このような見出しが記録される。
(2) この行には,日付と時刻,コンピュータの種類が示される。
(3) 次の 2 行には,エントリの種類,プロセッサの種類 (KA630),コンピュータの SCS ノード名が示される。
(4) この行には,エントリが記録される原因になったサブシステムとコンポーネントの名前が示される。
(5) この行には,エントリの原因が示される。この例では,LAN ドライバが致命的なエラーのためにデータ・リンクをシャットダウンしている。可能であれば,データ・リンクは自動的に再起動される。
(6) STATUS1 は,LAN ドライバから返された I/O 終了状態を示している。 STATUS2 は,LAN ドライバから PEDRIVER ドライバに渡された VCI イベント・コードである。イベント値とその意味は以下に示すとおりである。

イベント・コード 意味
1200 ポートは利用可能である
1201 ポートは利用できない
1202 アドレスが変化した

メッセージの送信が関係している場合は,状態はその送信に適用される

(7) DATALINK UNIT は,エラーが発生した LAN デバイスのユニット番号を示している。
(8) DATALINK NAME は,エラーが発生した LAN デバイスの名前である。
(9) REMOTE NODE は,パケットの送信先のリモート・ノードの名前である。0 が表示された場合は,リモート・ノードが使用可能な状態でないか,またはパケットがエラーに関連付けられていないことを示す。
(10) REMOTE ADDR は,パケットの送信先のリモート・ノードの LAN アドレスである。0 が表示された場合は,パケットがエラーに関連付けられていないことを示す。
(11) LOCAL ADDR はローカル・ノードの LAN アドレスである。
(12) ERROR CNT。一部のエラーは非常に高い率で発生する可能性があるため,一部のエラー・ログ・エントリは,エラーが複数回発生したことを表す。このフィールドは,その回数を示している。エントリのタイムスタンプの前の 3 秒間に発生したエラーが数えられる。

C.11.6 ログ・メッセージ・エントリ

ログ・メッセージ・エントリは,ポート・ドライバが解釈できないデータや,状態フィールドにエラー・コードを含む応答を CI ポートまたは LAN ポートが受信したときに作成されます。

例 C-8 は,ログ・メッセージ・エントリと, CI ポートの状態フィールド PPD$B_STATUS のエラー・コードを示しています。

例 C-8 CI ポートのログ・メッセージ・エントリ

************************* ENTRY     3. *************************** (1)
ERROR SEQUENCE 3.                           LOGGED ON SID 01188542 
 
ERL$LOGMESSAGE, 15-JAN-1994 13:40:25.13                            (2)
                KA780 REV #3. SERIAL #1346.    MFG PLANT 15.       (3)
 
CI SUB-SYSTEM, MARS$PAA0:                                          (4)
DATA CABLE(S) STATE CHANGE - PATH #0. WENT FROM GOOD TO BAD        (5)
 
      LOCAL STATION ADDRESS, 000000000002 (HEX)                    (6)
 
      LOCAL SYSTEM ID, 000000000001 (HEX)                          (7)
 
      REMOTE STATION ADDRESS, 000000000004 (HEX)                   (8)
 
      REMOTE SYSTEM ID, 0000000000A9 (HEX)                         (9)
 
      UCB$B_ERTCNT          32                                     (10)     
                                      50. RETRIES REMAINING 
      UCB$B_ERTMAX          32 
                                      50. RETRIES ALLOWABLE 
      UCB$W_ERRCNT        0001 
                                      1. ERRORS THIS UNIT 
      PPD$B_PORT            04                                     (11)
                                      REMOTE NODE #4. 
      PPD$B_STATUS          A5                                     (12)
                                      FAIL 
                                      PATH #0., NO RESPONSE 
                                      PATH #1., "ACK" OR NOT USED 
                                      NO PATH 
      PPD$B_OPC             05                                     (13)
                                      IDREQ 
      PPD$B_FLAGS           03                                     (14)
                                      RESPONSE QUEUE BIT 
                                      SELECT PATH #0. 
 
      "CI" MESSAGE                                                 (15)
 
                      00000000 
                      00000000 
                      80000004 
                      0000FE15 
                      4F503000 
                      00000507 
                      00000000 
                      00000000 
                      00000000 
                      00000000 
                      00000000 
                      00000000 
                      00000000 
                      00000000 
                      00000000 
                      00000000 
                      00000000 

以下の表は, 例 C-8 のログ・メッセージ・エントリについて説明しています。

エントリ 説明
(1) 最初の 2 行はエントリの見出しである。これらの行には,このエラー・ログ・ファイルでのエントリの番号,エラーのシーケンス番号,コンピュータの識別番号 (SID) が示される。ログ・ファイルの各エントリに,このような見出しが記録される。
(2) この行には,エントリの種類,日付と時刻が示される。
(3) この行には,プロセッサの種類 (KA780),コンピュータのハードウェア・リビジョン番号 (REV #3),コンピュータのシリアル番号 (SERIAL #1346),プラント番号 (15) が示される。
(4) この行には,エントリが記録される原因となったサブシステムおよびデバイスの名前が示される。
(5) この行には,エントリの原因 (1 つ以上のデータ・ケーブルの状態が変化した) と,エントリの詳細な理由が示される。以前はポートが正常に使用していたパス 0 は,現在使用できなくなっている。

注意: ANALYZE/ERROR_LOG では,"path 0" と "path 1" という表記法が使用される。一方,ケーブル・ラベルでは "path A (=0)" と "path B (=1)" という表記法が使用される。

(6) ローカル ((6)) およびリモート ((8))・ステーション・アドレスは,ローカル・ポートとリモート・ポートのポート番号 (0〜15 の範囲) である。ポート番号は,コンパックのサポート担当者がハードウェア・スイッチでセットする。
(7) ローカル ((7)) およびリモート ((9))・システム ID は,ローカル・システムとリモート・システムのシステム・パラメータ SCSSYSTEMID によって設定される SCS システム ID である。HSC サブシステムの場合,システム ID は HSC コンソールで設定される。
(8) (6) を参照。
(9) (7) を参照。
(10) 次の 3 行は,UCB$ から始まるエントリ・フィールドである。これらのフィールドは,この CI デバイスのユニット・コントロール・ブロック (UCB) の内容に関する情報を示す。
(11) PPD$ から始まる行は,ローカル・ポートが受信したメッセージ・パケット内のフィールドである。PPD$B_PORT には,リモート・ポートのステーション・アドレスが格納される。しかし,ループバック・ダイアグラムでは,このフィールドにはローカル・ステーション・アドレスが格納される。
(12) PPD$B_STATUS フィールドには,現在の操作で発生した障害の性質に関する情報が格納される。操作でエラーが発生せず,正常終了した場合は,ERF はこのフィールドの横に NORMAL と印刷する。それ以外の場合,ERF は PPD$B_STATUS に格納されているエラー情報をデコードする。この例では,選択されたパスであるパス 0 で応答がないため,NO PATH エラーが発生している。
(13) PPD$B_OPC フィールドには,エラーが発生したときにポートが実行していた操作を表すコードが示される。この例では,ポートは request-for-ID メッセージを送信しようとしていた。
(14) PPD$B_FLAGS フィールドには,操作に対して選択されたパスを示すビットや,その他の情報が示される。
(15) "CI" MESSAGE は,応答 (メッセージまたはデータグラム) のバイト 16〜83 (10 進数) の 16 進リストである。応答は可変長であるため,ポートのオペレーション・コードに応じて,バイト 16〜83 にはメッセージに実際に添付されているバイト数より多くのバイト数または少ないバイト数が格納されることがある。


前へ 次へ 目次 索引