Compaq OpenVMS
OpenVMS Cluster システム


前へ 次へ 目次 索引


C.10 ポート障害の診断

ここでは,通信パスの階層と,障害が発生する場所について説明します。

C.10.1 通信パスの階層構造

SCS,ポート・ドライバ,ポート自体の組み合わせによって,通信パスの階層構造がサポートされます。ここでは,最も基本的なレベルから順に説明します。

C.10.2 障害の発生場所

障害は,各通信レベルおよび各コンポーネントで発生する可能性があります。 表 C-3 で説明しているように,あるレベルの障害が別の障害を招くことがあります。

表 C-3 ポート障害
通信レベル 障害
ワイヤ LAN 障害が発生するか,または切断された場合,障害の性質に応じて, LAN トラフィックが停止するか,または中断される。CI の場合,パス A とパス B のどちらか一方で障害が発生しても,仮想サーキットはそのまま動作できる。すべてのトラフィックは,障害の発生していないパスに送られる。ワイヤが修復されると,修復はポート・ポーリングによって自動的に検出され,すべてのポートで正常な操作が再開される。
仮想サーキット 2 つのポート間のパスが動作しなくなった場合,仮想サーキットで障害が発生し,仮想サーキットはクローズされる。パス障害は以下のようにして検出される。

  • CI の場合,ポーリングが失敗するか,正常なトラフィックを送信しようとしたときに,どちらのパスも正しく送信できないことがポートから報告されると,パス障害であると判断される。

  • LAN の場合,マルチキャスト HELLO データグラム・メッセージまたは受信トラフィックが別のコンピュータから受信されなくなったときに,パス障害であると判断される。

仮想サーキットで障害が発生すると,そのサーキット上のすべての SCS 接続はクローズされる。仮想サーキットが再び確立されると,ソフトウェアは自動的に接続を再確立する。通常,仮想サーキットの再確立には,問題が解決された後,数秒かかる。

CI ポート ポートで障害が発生すると,そのポートに対するすべての仮想サーキットで障害が発生し,これらの仮想サーキット上のすべての SCS 接続がクローズされる。ポートが正しく再初期化されると,仮想サーキットと接続は自動的に再確立される。通常,ポートの再初期化と接続の再確立には数秒かかる。
LAN アダプタ LAN アダプタ・デバイスで障害が発生すると,そのデバイスを再起動しようとする試みが行われる。試行を繰り返しても再起動できない場合,そのアダプタを使用しているすべてのチャネルが破壊される。チャネルは 2 つ 1 組の LAN アドレスであり, 1 つはローカル・アドレス,もう 1 つはリモート・アドレスである。仮想サーキットに対してオープンされている最後のチャネルで障害が発生すると,仮想サーキットがクローズされ,接続は破壊される。
SCS 接続 ソフトウェア・プロトコルで障害が発生するか,またはソフトウェアがハードウェアの誤動作を検出すると,接続は終了する。他の接続は,仮想サーキットの場合と同様に,通常は影響を受けない。接続の終了は,特定の状況でエラー回復のための機能として使用されることがある。最も一般的な例として,コンピュータで利用できる非ページング・プールが不足する場合,このような状況が発生する。
コンピュータ オペレータ・シャットダウン,バグチェック,または停止によって,コンピュータで障害が発生すると,クラスタ内の他のすべてのコンピュータは,シャットダウンしているコンピュータのポートに対する仮想サーキットの障害として,シャットダウンを記録する。

C.10.3 CI ポート機能の確認

CI によって接続されたコンピュータが新しいコンピュータの場合や修復されたばかりのコンピュータの場合,または問題のある疑いがあるコンピュータの場合,そのコンピュータをクラスタ内でブートする前に,コンピュータが単独で正常に動作するかどうか,コンパックのサービス担当に依頼して確認する必要があります。

C.10.4 仮想サーキットの確認

通信に関する問題を診断するには, 表 C-4 の説明に従って,Show Cluster ユーティリティを起動します。

表 C-4 仮想サーキットの状態の確認方法
ステップ 操作 調べる対象
1 SHOW CLUSTER コマンド ADD CIRCUIT,CABLE_STATUS を入力して,SHOW CLUSTER のレポートをカスタマイズする。このコマンドは,SHOW CLUSTER を実行しているコンピュータから見たときの,すべての仮想サーキットに関する情報クラスを追加する。 CABLE_STATUS は,ローカル・システム上の CI インタフェースからリモート・システム上の CI インタフェースまでのサーキットのパスの状態を示す。 主に,障害があるコンピュータに対して OPEN 状態の仮想サーキットがあるかどうかをチェックする。仮想サーキットをオープンできない問題と,仮想サーキットをオープン状態に維持できない問題の一般的な原因は以下のとおりである。

  • どちらか一方にポート・エラーがある。

  • ケーブル・エラーがある。

  • ソフトウェアに問題があるために,ポートがオフラインに設定されている。

  • 両側で非ページング・プールが不足している。

  • SCSNODE,SCSSYSTEMID,PAMAXPORT,PANOPOLL, PASTIMOUT,PAPOLLINTERVAL システム・パラメータの値が正しく設定されていない。

2 クラスタ内の各アクティブ・コンピュータから SHOW CLUSTER を実行して,各コンピュータから障害があるコンピュータを見たときに,そのビューが他の各コンピュータのビューと一致するかどうかを確認する。

状態 対処法
すべてのアクティブ・コンピュータから障害のあるコンピュータを見たときのビューが一致している。 問題は障害のあるコンピュータにあると考えられる。
複数のアクティブ・コンピュータの中の 1 台だけで,新しいコンピュータで障害が発生していることが検出された。 その特定のコンピュータに問題がある可能性がある。

障害のあるコンピュータに対して仮想サーキットをオープンできない場合は,SHOW CLUSTER の表示の一番下の部分を確認する。

  • 障害のあるコンピュータのポートに対するサーキットに関する情報。部分的にオープン状態になっている仮想サーキットは,表示の一番下に示される。サーキットが OPEN 以外の状態で示される場合は,ローカル・ポートとリモート・ポートの間の通信は実行されており,障害はおそらくポートまたはケーブル・ハードウェアより高いレベルにあると考えられる。

  • 障害があるポートに対するパス A とパス B の両方が正常であるかどうか確認する。どちらか一方のパスが正常に動作していないと,コンピュータはクラスタに参加できないことがある。

C.10.5 CI ケーブル接続の確認

仮想サーキットがオープンされておらず,ハンドシェイク・プロシージャで仮想サーキットをオープンする処理が現在行われていないことが構成ポーラで検出されると,ポーラは環境を分析します。その場合,以下の方法で CI ポートの send-loopback-datagram 機能を使用します。

  1. send-loopback-datagram 機能は,メッセージをルーティングさせることで CI ポートとスター・カプラの間の接続をテストします。このメッセージは,ループバック・データグラムと呼ばれます (ポートは,スター・カプラや外部ケーブルを使用せずに,自分宛ての他のメッセージを処理します)。

  2. 構成ポーラがサーキットの状態の変化を検出すると,エラー・ログにエントリを作成します。しかし,途中に changed-to-succeeded-state メッセージがないのに,2 つの changed-to-failed-state メッセージがログに記録されることがあります。このような一連のエントリは,サーキットの状態が引き続き正常でないことを示しています。

C.10.6 CI ケーブルの問題の診断

ここでは,さまざまな不正な CI ケーブル構成について説明し,これらの構成が検出されたときに,エラー・ログに作成されるエントリについても説明します。 図 C-1 は,すべてのケーブルが正しく接続されている 2 台のコンピュータの構成を示しています。 図 C-2 は,2 本のケーブルが交差している CI クラスタを示しています。

図 C-1 正しく接続された 2 コンピュータ構成の CI クラスタ


図 C-2 交差した CI ケーブル


2 本の送信ケーブルまたは 2 本の受信ケーブルが交差している場合, TA から送信されたメッセージは RB で受信され,TB から送信されたメッセージは RA で受信されます。これは,ポートで回復できないハードウェア・エラーです。このエラーが発生すると,2 本の交差したケーブルが存在することを示すエントリがエラー・ログに作成されます。エントリには以下の行が含まれます。


DATA CABLE(S) CHANGE OF STATE 
PATH  1.  LOOPBACK HAS GONE FROM GOOD TO BAD 

この状況では,ケーブルを正しく再接続することで問題を解決できます。ケーブルが複数の箇所で誤って接続されている可能性もあります。ポート・ボードをバルクヘッド・ケーブル・コネクタに接続している同軸ケーブルが交差している可能性があり,ケーブルがバルクヘッドまたはスター・カプラに正しく接続されていない可能性もあります。

構成 1: 図 C-2 に示した情報は, 例 C-1 にもっと簡単に示されています。 図 C-2 と同様に,交差したケーブルが示されていますが,スター・カプラやコンピュータは示されていません。LOC (local) と REM (remote) というラベルは,それぞれローカル・コンピュータとリモート・コンピュータ上の 2 本の送信 (T) ケーブルと受信 (R) ケーブルを示しています。

例 C-1 交差したケーブル: 構成 1

T x   = R 
 
R =   = T 
 
LOC   REM 

2 本のケーブル (ケーブル・ペア) が交差していると,ローカル・コンピュータでループバック・データグラムが正常にやり取りされませんが,リモート・コンピュータでは正常にやり取りされます。2 本の送信ケーブルが交差している場合と, 2 本の受信ケーブルが交差している場合では,どちらも同じ動作になります。

このような問題は,ケーブル・ペアが奇数組だけ交差しているときに発生します。交差しているケーブル・ペアの数が偶数の場合,通信は成功します。しかし,場合によってはエラー・ログ・エントリが作成されることがあり,エントリの内容は,どのケーブル・エラーが交差しているかに応じて異なります。

構成 2: 例 C-2 では,2 組のケーブル・ペアが交差している場合の 2 コンピュータ・クラスタを示しています。これらの 2 組のケーブル・ペアが交差していると,ケーブルが交差しているコンピュータのエラー・ログに以下のエントリが作成されます。


DATA CABLE(S) CHANGE OF STATE 
CABLES HAVE GONE FROM UNCROSSED TO CROSSED 

例 C-2 ケーブルの交差: 構成 2

T x   = R        T =   x R 
 
R x   = T        R =   x T 
 
LOC   REM        LOC   REM 

ループバック・データグラムは両方のコンピュータで成功し,通信も可能です。

構成 3: 例 C-3 では,2 組のケーブル・ペアが交差している場合のうち,クラスタ内の両方のコンピュータでループバック・データグラムが失敗する組み合わせを示しています。コンピュータ間で通信を実行することは可能です。ケーブルが交差していることを示すエントリが各コンピュータのエラー・ログに作成されます。

例 C-3 ケーブルの交差: 構成 3

T x   = R        T =   x R 
 
R =   x T        R x   = T 
 
LOC   REM        LOC   REM 

構成 4: 例 C-4 では,2 組のケーブル・ペアが交差している場合のうち,クラスタ内の両方のコンピュータでループバック・データグラムが失敗するものの,通信が可能な組み合わせを示しています。ケーブルが交差していることを示すエントリはコンピュータのエラー・ログに作成されません。

例 C-4 ケーブルの交差: 構成 4

T x   x R        T =   = R 
 
R =   = T        R x   x T 
 
LOC   REM        LOC   REM 

構成 5: 例 C-5 は,4 組のケーブル・ペアが交差している場合の可能な組み合わせを示しています。どの場合も,1 組のケーブル・ペアだけが交差しているコンピュータでは,ループバック・データグラムは失敗します。両方のケーブル・ペアが交差しているコンピュータでは,ループバック・データグラムは成功します。通信は実行できません。

例 C-5 ケーブルの交差: 構成 5

T x   x R        T x   = R        T =   x R        T x   x R 
 
R x   = T        R x   x T        R x   x T        R =   x T 
 
LOC   REM        LOC   REM        LOC   REM        LOC   REM 

2 台のコンピュータ間の 4 組のすべてのケーブル・ペアが交差している場合,通信は成功し,ループバック・データグラムも成功しますが,ケーブルの交差を示す crossed-cable メッセージ・エントリはエラー・ログに作成されません。このような状況を検出するには,クラスタ内の 3 台目のコンピュータで作成されたエラー・ログ・エントリを確認しなければなりませんが,この状況は,3 台目のコンピュータで,これまで説明したケーブルの交差のいずれかが発生した場合にだけ発生します。

C.10.7 CI ケーブルの修復

ここでは,コンパックのサポート担当者が稼動中のコンピュータで修理を行う方法について説明します。この情報は,システム管理者が修理のスケジューリングを行うのに役立つように提供するものです。

ケーブルのチェックやケーブルの交換が行われている間も,クラスタ・ソフトウェアが動作を続行できるようにするには,クラスタ内の各ポート間および他のすべてのポート間で常にパス A またはパス B が正常に動作できるようにしなければなりません。

たとえば,特定のポートからスター・カプラまで,パス A とパス B を交互に削除することができます。以前は障害が発生していて,現在は正常に動作するようになったパスを構成ポーラが確実に検出できるようにするには,以下の操作を行います。

ステップ 操作
1 パス B を削除する。
2 パス B に問題があることをポーラが検出した後,パス B を再初期化する。
3 2 ポーラ間隔 1 だけ待ち,その後以下のいずれかの操作を行う。

  • DCL コマンド SHOW CLUSTER を入力して,ポーラがパス B を再確立したことを確認する。

  • DCL コマンド SHOW CLUSTER/CONTINUOUS を入力し,その後に SHOW CLUSTER コマンド ADD CIRCUITS, CABLE_ST を入力する。

4 SHOW CLUSTER コマンドから,パス B が再確立されたことが通知されるのを待つ。
5 パス A を削除する。
6 パス A に問題があることをポーラが検出した後,パス A を再接続する。
7 ポーラがパス A を確実に再確立できるように, 2 ポーラ間隔 1 だけ待つ。


1デフォルト・システム・パラメータ設定で約 10 秒間

両方のパスが同時に失われると,ケーブルが切断されているポートとクラスタ内の他のすべてのポートの間の仮想サーキットが失われます。この状況が発生すると,切断された仮想サーキット上の SCS 接続も失われます。しかし,影響を受けたコンピュータ上でサービスに割り込みがかかった後,この状況から自動的に回復します。割り込みの長さは一定ではありませんが,システム・パラメータのデフォルト設定では,約 2 ポーラ間隔です。


前へ 次へ 目次 索引