前へ | 次へ | 目次 | 索引 |
付録 D.4 節 で説明している Local Area OpenVMS Cluster Network Failure Analysis Program では, HELLO データグラム・メッセージを使用して,PEDRIVER で使用されるネットワーク・パス (チャネル) を継続的にチェックします。このチェック・プロセスをネットワークの物理的な記述と組み合わせると,以下のことが可能になります。
エラー・ログに記録されたイベントを監視すると,問題を予測し,回避するのに役立ちます。エラーの総数 (DCL コマンド SHOW DEVICES device-name によって表示) から,エラーが増加しているかどうか判断することができます。その場合,エラー・ログを確認しなければなりません。
C.11.1 エラー・ログの確認
DCL コマンド ANALYZE/ERROR_LOG は,Error Log ユーティリティを起動して,エラー・ログ・ファイルの内容を報告します。
関連項目: Error Log ユーティリティの詳細については,『Compaq OpenVMS システム管理ユーティリティ・リファレンス・マニュアル』を参照してください。
エラー・ログ・エントリの中には,単に情報を提供するだけのものと,操作が必要なものがあります。
エラーの種類 | 操作が必要か | 目的 |
---|---|---|
情報エラー・ログ・エントリに対しては,操作は必要ない。たとえば,クラスタ内のコンピュータをシャットダウンすると,そのコンピュータとの間に仮想サーキットをオープンしている他のすべてのアクティブ・コンピュータのエラー・ログにエントリが作成される。このようなコンピュータは,イベントに対して最大 3 つのエラーを記録する。
|
不要 | これらのメッセージは正常終了メッセージであり,シャットダウンされたコンピュータとの間のサーキットの状態が変化したことを反映するものである。 |
その他のエラー・ログ・エントリは,パフォーマンスの低下や,致命的でない問題がハードウェアにあることを示す。このような状況では,オペレーティング・システムは問題なく操作を続行できる。 | 必要 | 致命的でない問題 (たとえば 1 つの CI パスが失われたなど) が深刻な問題 (たとえば両方のパスが失われたなど) にならないようにするには,これらの問題を早期に検出することが重要である。 |
CI,DSSI,LAN 上でエラーや他のイベントが発生すると,ポート・ドライバは以下の 2 種類の形式のいずれかで,システム・エラー・ログに情報を記録します。
CI のデバイス・アテンション・エントリは,一般にハードウェア・レジスタにビットをセットすることによって示されるイベントを記録します。LAN の場合,デバイス・アテンション・エントリは通常, LAN アダプタ・デバイスのエラーを記録します。
ログ・メッセージ・エントリは,エラー・データを含むメッセージ・パケットや,エラー状況を示すメッセージ・パケットを受信したことを記録します。
これらの形式については, 付録 C.11.3 項 と
付録 C.11.6 項 を参照してください。
C.11.3 CI のデバイス・アテンション・エントリ
例 C-6 は,CI のデバイス・アテンション・エントリを示しています。左側のカラムには,デバイス・レジスタまたはメモリ・ロケーションの名前が示されています。中央のカラムには,そのレジスタまたはメモリ・ロケーションに格納されている値が示され,右のカラムにはその値の説明が示されています。
例 C-6 CI のデバイス・アテンション・エントリ |
---|
************************* ENTRY 83. **************************** (1) ERROR SEQUENCE 10. LOGGED ON: SID 0150400A DATE/TIME 15-JAN-1994 11:45:27.61 SYS_TYPE 01010000 (2) DEVICE ATTENTION KA780 (3) SCS NODE: MARS CI SUB-SYSTEM, MARS$PAA0: - PORT POWER DOWN (4) CNFGR 00800038 ADAPTER IS CI ADAPTER POWER-DOWN PMCSR 000000CE MAINTENANCE TIMER DISABLE MAINTENANCE INTERRUPT ENABLE MAINTENANCE INTERRUPT FLAG PROGRAMMABLE STARTING ADDRESS UNINITIALIZED STATE PSR 80000001 RESPONSE QUEUE AVAILABLE MAINTENANCE ERROR PFAR 00000000 PESR 00000000 PPR 03F80001 UCB$B_ERTCNT 32 (5) 50. RETRIES REMAINING UCB$B_ERTMAX 32 (6) 50. RETRIES ALLOWABLE UCB$L_CHAR 0C450000 SHAREABLE AVAILABLE ERROR LOGGING CAPABLE OF INPUT CAPABLE OF OUTPUT UCB$W_STS 0010 ONLINE UCB$W_ERRCNT 000B (7) 11. ERRORS THIS UNIT |
以下の表は, 例 C-6 に示したデバイス・アテンション・エントリについて説明しています。
エントリ | 説明 |
---|---|
(1) | 最初の 2 行はエントリの見出しである。これらの行には,このエラー・ログ・ファイルでのエントリの番号,このエラーのシーケンス番号,このコンピュータの識別番号 (SID) が示される。ログ・ファイルの各エントリには,このような見出しが記録される。 |
(2) | この行には,日付,時刻,コンピュータの種類が示される。 |
(3) | 次の 2 行には,エントリの種類,プロセッサの種類 (KA780),コンピュータの SCS ノード名が示される。 |
(4) | この行には,エントリが記録される原因になったサブシステムおよびデバイスの名前と,エントリの理由が示される。この例では, MARS の CI サブシステムのデバイス PAA0 の電源がオフになっている。
次の 15 行には,ポート内のハードウェア・レジスタの名前,各レジスタの内容,それぞれの内容の説明が示される。すべての CI ポート・レジスタの詳細については,適切な CI ハードウェア・マニュアルを参照。 |
(5) | UCB$B_ERTCNT フィールドには,ポート・ドライバがまだ試すことができる再初期化の数が示される。この値と UCB$B_ERTMAX の差が,すでに試された再初期化の数である。 |
(6) | UCB$B_ERTMAX フィールドには,ポート・ドライバがポートを再初期化できる最大数が示される。 |
(7) | UCB$W_ERRCNT フィールドには,ブートされてからこのポートで発生したエラーの総数が示される。この総数には,ポートの再初期化によって発生したエラーと,それ以外のエラーが含まれる。 |
CI ポートは多くのエラーから回復できますが,すべてのエラーから回復できるわけではありません。CI で回復できないエラーが発生した場合,以下の処理が行われます。
ステップ | 操作 |
---|---|
1 | ポートがポート・ドライバに通知する。 |
2 | ポート・ドライバはエラーをログに記録し,ポートを再初期化しようとする。 |
3 | このような初期化を 50 回繰り返した後,ポート・エラーから回復できない場合,ドライバはポートをオフラインにする。ただし,システム・ディスクが障害のあるポートに接続されている場合や,このコンピュータがクラスタ・メンバであると考えられる場合は,ポートはオフラインにならない。 |
4 | システム・ディスクへのアクセスやクラスタに参加するために CI ポートが必要であり,再初期化を 50 回繰り返した後も,エラーから回復できない場合は,CIPORT タイプのバグチェックによってコンピュータはバグチェックを行う。 |
CI ポートがオフラインに設定された後,コンピュータをリブートしなければ,ポートをオンラインに戻すことはできません。
C.11.5 LAN のデバイス・アテンション・エントリ
例 C-7 は,LAN のデバイス・アテンション・エントリを示しています。左のカラムには,デバイス・レジスタまたはメモリ・ロケーションの名前を示しています。中央のカラムにはそのレジスタまたはメモリ・ロケーションに格納されている値を示し,右のカラムにはその値の説明を示しています。
例 C-7 LAN のデバイス・アテンション・エントリ |
---|
************************* ENTRY 80. **************************** (1) ERROR SEQUENCE 26. LOGGED ON: SID 08000000 DATE/TIME 15-JAN-1994 11:30:53.07 SYS_TYPE 01010000 (2) DEVICE ATTENTION KA630 (3) SCS NODE: PHOBOS NI-SCS SUB-SYSTEM, PHOBOS$PEA0: (4) FATAL ERROR DETECTED BY DATALINK (5) STATUS1 0000002C (6) STATUS2 00000000 DATALINK UNIT 0001 (7) DATALINK NAME 41515803 (8) 00000000 00000000 00000000 DATALINK NAME = XQA1: REMOTE NODE 00000000 (9) 00000000 00000000 00000000 REMOTE ADDR 00000000 (10) 0000 LOCAL ADDR 000400AA (11) 4C07 ETHERNET ADDR = AA-00-04-00-07-4C ERROR CNT 0001 (12) 1. ERROR OCCURRENCES THIS ENTRY UCB$W_ERRCNT 0007 7. ERRORS THIS UNIT |
以下の表は, 例 C-7 に示した LAN のデバイス・アテンション・エントリについて説明しています。
エントリ | 説明 | ||||||||
---|---|---|---|---|---|---|---|---|---|
(1) | 最初の 2 行はエントリの見出しである。これらの行には,このエラー・ログ・ファイルでのエントリの番号,このエラーのシーケンス番号,このコンピュータの識別番号 (SID) が示される。ログ・ファイルの各エントリには,このような見出しが記録される。 | ||||||||
(2) | この行には,日付と時刻,コンピュータの種類が示される。 | ||||||||
(3) | 次の 2 行には,エントリの種類,プロセッサの種類 (KA630),コンピュータの SCS ノード名が示される。 | ||||||||
(4) | この行には,エントリが記録される原因になったサブシステムとコンポーネントの名前が示される。 | ||||||||
(5) | この行には,エントリの原因が示される。この例では,LAN ドライバが致命的なエラーのためにデータ・リンクをシャットダウンしている。可能であれば,データ・リンクは自動的に再起動される。 | ||||||||
(6) | STATUS1 は,LAN ドライバから返された I/O 終了状態を示している。 STATUS2 は,LAN ドライバから PEDRIVER ドライバに渡された VCI イベント・コードである。イベント値とその意味は以下に示すとおりである。
メッセージの送信が関係している場合は,状態はその送信に適用される |
||||||||
(7) | DATALINK UNIT は,エラーが発生した LAN デバイスのユニット番号を示している。 | ||||||||
(8) | DATALINK NAME は,エラーが発生した LAN デバイスの名前である。 | ||||||||
(9) | REMOTE NODE は,パケットの送信先のリモート・ノードの名前である。0 が表示された場合は,リモート・ノードが使用可能な状態でないか,またはパケットがエラーに関連付けられていないことを示す。 | ||||||||
(10) | REMOTE ADDR は,パケットの送信先のリモート・ノードの LAN アドレスである。0 が表示された場合は,パケットがエラーに関連付けられていないことを示す。 | ||||||||
(11) | LOCAL ADDR はローカル・ノードの LAN アドレスである。 | ||||||||
(12) | ERROR CNT。一部のエラーは非常に高い率で発生する可能性があるため,一部のエラー・ログ・エントリは,エラーが複数回発生したことを表す。このフィールドは,その回数を示している。エントリのタイムスタンプの前の 3 秒間に発生したエラーが数えられる。 |
ログ・メッセージ・エントリは,ポート・ドライバが解釈できないデータや,状態フィールドにエラー・コードを含む応答を CI ポートまたは LAN ポートが受信したときに作成されます。
例 C-8 は,ログ・メッセージ・エントリと, CI ポートの状態フィールド PPD$B_STATUS のエラー・コードを示しています。
例 C-8 CI ポートのログ・メッセージ・エントリ |
---|
************************* ENTRY 3. *************************** (1) ERROR SEQUENCE 3. LOGGED ON SID 01188542 ERL$LOGMESSAGE, 15-JAN-1994 13:40:25.13 (2) KA780 REV #3. SERIAL #1346. MFG PLANT 15. (3) CI SUB-SYSTEM, MARS$PAA0: (4) DATA CABLE(S) STATE CHANGE - PATH #0. WENT FROM GOOD TO BAD (5) LOCAL STATION ADDRESS, 000000000002 (HEX) (6) LOCAL SYSTEM ID, 000000000001 (HEX) (7) REMOTE STATION ADDRESS, 000000000004 (HEX) (8) REMOTE SYSTEM ID, 0000000000A9 (HEX) (9) UCB$B_ERTCNT 32 (10) 50. RETRIES REMAINING UCB$B_ERTMAX 32 50. RETRIES ALLOWABLE UCB$W_ERRCNT 0001 1. ERRORS THIS UNIT PPD$B_PORT 04 (11) REMOTE NODE #4. PPD$B_STATUS A5 (12) FAIL PATH #0., NO RESPONSE PATH #1., "ACK" OR NOT USED NO PATH PPD$B_OPC 05 (13) IDREQ PPD$B_FLAGS 03 (14) RESPONSE QUEUE BIT SELECT PATH #0. "CI" MESSAGE (15) 00000000 00000000 80000004 0000FE15 4F503000 00000507 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 |
以下の表は, 例 C-8 のログ・メッセージ・エントリについて説明しています。
エントリ | 説明 |
---|---|
(1) | 最初の 2 行はエントリの見出しである。これらの行には,このエラー・ログ・ファイルでのエントリの番号,エラーのシーケンス番号,コンピュータの識別番号 (SID) が示される。ログ・ファイルの各エントリに,このような見出しが記録される。 |
(2) | この行には,エントリの種類,日付と時刻が示される。 |
(3) | この行には,プロセッサの種類 (KA780),コンピュータのハードウェア・リビジョン番号 (REV #3),コンピュータのシリアル番号 (SERIAL #1346),プラント番号 (15) が示される。 |
(4) | この行には,エントリが記録される原因となったサブシステムおよびデバイスの名前が示される。 |
(5) | この行には,エントリの原因 (1 つ以上のデータ・ケーブルの状態が変化した) と,エントリの詳細な理由が示される。以前はポートが正常に使用していたパス 0 は,現在使用できなくなっている。
注意: ANALYZE/ERROR_LOG では,"path 0" と "path 1" という表記法が使用される。一方,ケーブル・ラベルでは "path A (=0)" と "path B (=1)" という表記法が使用される。 |
(6) | ローカル ((6)) およびリモート ((8))・ステーション・アドレスは,ローカル・ポートとリモート・ポートのポート番号 (0〜15 の範囲) である。ポート番号は,コンパックのサポート担当者がハードウェア・スイッチでセットする。 |
(7) | ローカル ((7)) およびリモート ((9))・システム ID は,ローカル・システムとリモート・システムのシステム・パラメータ SCSSYSTEMID によって設定される SCS システム ID である。HSC サブシステムの場合,システム ID は HSC コンソールで設定される。 |
(8) | (6) を参照。 |
(9) | (7) を参照。 |
(10) | 次の 3 行は,UCB$ から始まるエントリ・フィールドである。これらのフィールドは,この CI デバイスのユニット・コントロール・ブロック (UCB) の内容に関する情報を示す。 |
(11) | PPD$ から始まる行は,ローカル・ポートが受信したメッセージ・パケット内のフィールドである。PPD$B_PORT には,リモート・ポートのステーション・アドレスが格納される。しかし,ループバック・ダイアグラムでは,このフィールドにはローカル・ステーション・アドレスが格納される。 |
(12) | PPD$B_STATUS フィールドには,現在の操作で発生した障害の性質に関する情報が格納される。操作でエラーが発生せず,正常終了した場合は,ERF はこのフィールドの横に NORMAL と印刷する。それ以外の場合,ERF は PPD$B_STATUS に格納されているエラー情報をデコードする。この例では,選択されたパスであるパス 0 で応答がないため,NO PATH エラーが発生している。 |
(13) | PPD$B_OPC フィールドには,エラーが発生したときにポートが実行していた操作を表すコードが示される。この例では,ポートは request-for-ID メッセージを送信しようとしていた。 |
(14) | PPD$B_FLAGS フィールドには,操作に対して選択されたパスを示すビットや,その他の情報が示される。 |
(15) | "CI" MESSAGE は,応答 (メッセージまたはデータグラム) のバイト 16〜83 (10 進数) の 16 進リストである。応答は可変長であるため,ポートのオペレーション・コードに応じて,バイト 16〜83 にはメッセージに実際に添付されているバイト数より多くのバイト数または少ないバイト数が格納されることがある。 |
前へ | 次へ | 目次 | 索引 |