Compaq OpenVMS
OpenVMS Cluster システム


前へ 次へ 目次 索引


F.3.4 PEDRIVER バスの監視

SDA コマンド SHOW PORT/BUS=BUS_LAN-device は, LAN アダプタの PEDRIVER 表現を表示するのに役立ちます。 PEDRIVER にとって,バスは LAN アダプタの論理表現です (バスの名前とアドレスの一覧を表示するには, SDA コマンド SHOW PORT/ADDR=PE_PDT を入力した後, Return キーを 2 回押します)。 例 F-3 は EXA という LAN アダプタの表示を示しています。

例 F-3 SDA コマンド SHOW PORT/BUS の表示

SDA> SHOW PORT/BUS=BUS_EXA
VAXcluster data structures 
-------------------------- 
--- BUS: 817E02C0  (EXA)  Device: EX_DEMNA  LAN Address: AA-00-04-00-64-4F --- 
                                   LAN Hardware Address: 08-00-2B-2C-20-B5 
Status: 00000803 run,online(1),restart 
------- Transmit ------  ------- Receive -------  ---- Structure Addresses --- 
Msg Xmt        20290620  Msg Rcv        67321527  PORT Address        817E1140 
  Mcast Msgs    1318437    Mcast Msgs   39773666  VCIB Addr           817E0478 
  Mcast Bytes 168759936    Mcast Bytes 159660184  HELLO Message Addr  817E0508 
Bytes Xmt    2821823510  Bytes Rcv    3313602089  BYE Message Addr    817E0698 
Outstand I/Os         0  Buffer Size        1424  Delete BUS Rtn Adr  80C6DA46 
Xmt Errors(2)      15896  Rcv Ring Size        31 
Last Xmt Error 0000005C         Time of Last Xmt Error(3)21-JAN-1994 15:33:38.96 
--- Receive Errors ----  ------ BUS Timer ------  ----- Datalink Events ------ 
TR Mcast Rcv          0  Handshake TMO  80C6F070  Last  7-DEC-1992 17:15:42.18 
Rcv Bad SCSID         0  Listen TMO     80C6F074  Last Event          00001202 
Rcv Short Msg         0  HELLO timer           3  Port Usable                1 
Fail CH Alloc         0  HELLO Xmt err(4)    1623  Port Unusable              0 
Fail VC Alloc         0                           Address Change             1 
Wrong PORT            0                           Port Restart Fail          0 
 

フィールド 説明
(1) Status: Status 行には常に,PEDRIVER が LAN アダプタにアクセスできることを示すために,"online" という状態が表示される。
(2) Xmt Errors (送信エラー) PEDRIVER がこの LAN アダプタを使用してパケットを送信できなかった回数を示す。
(3) Time of Last Xmt Error このフィールドに表示される時刻と, 例 F-2 の VC 表示に表示される Open and Cls の回数を比較することにより, LAN アダプタの障害の時刻が仮想サーキット障害の時刻に近いかどうか判断することができる。

注意: LAN アダプタ・パス・レベルで送信エラーが発生すると,仮想サーキットが破壊される。

(4) HELLO Xmt err (HELLO 送信エラー) メッセージ送信障害によって PEDRIVER HELLO データグラム・メッセージが "紛失" した回数を示す ( 付録 F.1 節 の Channel Control [CC] レベルの説明では, HELLO データグラム・メッセージの目的を簡単に説明している)。多くの HELLO 送信エラーが発生した場合,おそらく他のノードの PEDRIVER がチャネルを時間切れにし,最終的に仮想サーキットがクローズされることになる。

例 F-3 に示されている HELLO 送信障害は 1623 であり,このために送信エラーの回数も多くなっている (15896)。送信エラーの数が少なく,HELLO 送信エラーの数が多くなることはあり得ない。

F.3.5 LAN アダプタの監視

LAN デバイス・ドライバによって管理されている LAN アダプタに関する情報を表示するには,SDA コマンド SHOW LAN/COUNT を使用します (このコマンドは,PEDRIVER [SCA] 関連カウンタだけでなく,すべてのプロトコルのカウンタを表示します)。 例 F-4 は,SHOW LAN/COUNT コマンドの表示の例を示しています。

例 F-4 SDA コマンド SHOW LAN/COUNTERS の表示

$ ANALYZE/SYSTEM
SDA> SHOW LAN/COUNTERS
 
LAN Data Structures 
------------------- 
             -- EXA Counters Information 22-JAN-1994 11:21:19 -- 
 
Seconds since zeroed         3953329    Station failures                   0 
Octets received          13962888501    Octets sent              11978817384 
PDUs received              121899287    PDUs sent                   76872280 
Mcast octets received     7494809802    Mcast octets sent          183142023 
Mcast PDUs received         58046934    Mcast PDUs sent              1658028 
Unrec indiv dest PDUs              0    PDUs sent, deferred          4608431 
Unrec mcast dest PDUs              0    PDUs sent, one coll          3099649 
Data overruns                      2    PDUs sent, mul coll          2439257 
Unavail station buffs(1)            0    Excessive collisions(2)          5059 
Unavail user buffers               0    Carrier check failure              0 
Frame check errors               483    Short circuit failure              0 
Alignment errors               10215    Open circuit failure               0 
Frames too long                  142    Transmits too long                 0 
Rcv data length error              0    Late collisions                14931 
802E PDUs received             28546    Coll detect chk fail               0 
802 PDUs received                  0    Send data length err               0 
Eth PDUs received          122691742    Frame size errors                  0 
 
LAN Data Structures 
------------------- 
        -- EXA Internal Counters Information 22-JAN-1994 11:22:28 -- 
 
Internal counters address   80C58257    Internal counters size            24 
Number of ports                    0    Global page transmits              0 
No work transmits            3303771    SVAPTE/BOFF transmits              0 
Bad PTE transmits                  0    Buffer_Adr transmits               0 
 
Fatal error count                  0    RDL errors                         0 
Transmit timeouts                  0    Last fatal error                None 
Restart failures                   0    Prev fatal error                None 
Power failures                     0    Last error CSR              00000000 
Hardware errors                    0    Fatal error code                None 
Control timeouts                   0    Prev fatal error                None 
 
Loopback sent                      0    Loopback failures                  0 
System ID sent                     0    System ID failures                 0 
ReqCounters sent                   0    ReqCounters failures               0 
 
      -- EXA1 60-07 (SCA) Counters Information 22-JAN-1994 11:22:31 -- 
 
Last receive(3)       22-JAN 11:22:31    Last transmit(3)    22-JAN 11:22:31 
Octets received           7616615830    Octets sent               2828248622 
PDUs received               67375315    PDUs sent                   20331888 
Mcast octets received              0    Mcast octets sent                  0 
Mcast PDUs received                0    Mcast PDUs sent                    0 
Unavail user buffer                0    Last start attempt              None 
Last start done       7-DEC 17:12:29    Last start failed               None 
   .
   .
   .

SHOW LAN/COUNTERS の表示には通常,複数の LAN アダプタに関するデバイス・カウンタ情報が含まれます。しかし, 例 F-4 は単なる例であるため, 1 つのデバイスだけを示しています。

フィールド 説明
(1) Unavail station buffs (使用できないステーション・バッファ) LAN ドライブの特定のステーション・バッファを受信パケット用に使用できなかった回数を記録する。メッセージを受信するノードは,ノードに十分な LAN ステーション・バッファがない場合,パケットを紛失する可能性がある (LAN バッファは,DECnet や TCP/IP,LAT など, PEDRIVER 以外の多くのコンポーネントで使用される)。 LAN ステーション・バッファが不足しているためにパケットが紛失するという現象は,LAN アダプタが輻輳していたり,システムが既存のバッファを十分な速度で再利用できないことを示す症状である。
(2) Excessive collisions アダプタでメッセージの送信が失敗した回数を示す。この問題は以下の原因によってしばしば発生する。

  • 特定の LAN セグメントで,トラフィックが非常に高いために (70%〜80% の利用率) 発生する LAN 負荷の問題。

  • スクリーマというコンポーネント。 スクリーマとは,プロトコルがイーサネットまたは FDDI ハードウェア・プロトコルに準拠していないアダプタである。スクリーマは,アダプタでパケットの送信許可が出されるのを待たずに送信を開始するため,衝突エラーが発生し,このフィールドに登録される。

複数の衝突を含む送信が数多く発生した場合,OpenVMS Cluster のパフォーマンスが低下する。一部のノードを LAN セグメントから削除するか,別の LAN セグメントをクラスタに追加することにより,パフォーマンスを向上することができる。全体的な目標は,既存の LAN セグメントで発生するトラフィックを削減することにより, OpenVMS Cluster システムから利用できる帯域幅を広くすることである。

(3) Last receive と Last transmit Last receive メッセージ・フィールドと Last transmit メッセージ・フィールドに示される時間の差が,大きな値であってはならない。少なくとも,これらのフィールドのタイムスタンプは,3 秒おきに HELLO データグラム・メッセージがチャネルを介して送信されていることを反映する値でなければならない。時間差が大きい場合,以下のことを示す可能性がある。

  • ハードウェア障害

  • LAN ドライバが特定の LAN アダプタで NISCA プロトコルをアクティブであると認識しているかどうか。

F.4 NISCA 通信のトラブルシューティング

F.4.1 トラブルの領域

付録 F.5 節付録 F.6 節 では, LAN ネットワークで最も問題の発生しやすい 2 つの分野,つまりチャネルの形成と再送について説明しています。これらの 2 つの問題の説明では,LAN アナライザ・ツールを利用して NISCA プロトコルで情報を切り分ける方法がしばしば示されています。

関連項目: NISCA に関する問題を診断する場合, NISCA プロトコル・パケットについて説明している 付録 F.7 節 と, LAN ネットワーク障害アナライザの選択方法および使い方について説明している 付録 F.8 節 も参照すると役立ちます。

F.5 チャネルの形成

チャネルの形成に関する問題は,2 つのノードが LAN アダプタ間で正常に通信できないときに発生します。

F.5.1 チャネルが形成される方法

表 F-6 では,チャネルの形成について 1 ステップずつ詳しく説明しています。

表 F-6 チャネルの形成
ステップ 操作
1 ノードが HELLO データグラムを LAN アダプタから別のクラスタ・ノードの LAN アダプタに送信するときに,チャネルが形成される。これが新しいリモート LAN アダプタ・アドレスである場合や,対応するチャネルがクローズされている場合は, HELLO データグラムを受信するリモート・ノードは,最大 2 秒間の遅延の後,発信側のノードに CCSTART データグラムを送信する。
2 CCSTARTデータグラムを受信すると,発信側のノードはクラスタ・パスワードを確認し,パスワードが正しい場合,ノードは VERF データグラムを応答し,リモート・ノードが VACK データグラムを送信するまで最大 5 秒間待つ (VERF,VACK,CCSTART,HELLO データグラムについては, 付録 F.7.6 項 を参照)。
3 VERF データグラムを受信すると,リモート・ノードはクラスタ・パスワードを確認する。パスワードが正しい場合,ノードは VACK データグラムを応答し,チャネルをオープンされているものとしてマークする ( 図 F-2 を参照)。
4
ローカル・ノードの状態 対処法
5 秒以内に VACK データグラムを受信できない。 チャネルの状態はクローズに変化し,ハンドシェイク時間切れカウンタが増分される。
5 秒以内に VACK データグラムを受信し,クラスタ・パスワードが正しい。 チャネルはオープンされる。

5 チャネルが形成された後,HELLO データグラム・メッセージの定期的なマルチキャストによって,チャネルはオープン状態に維持される。各ノードは,各 LAN アダプタを介して少なくとも 3.0 秒に 1 回ずつ,HELLO データグラム・メッセージをマルチキャストする。チャネルを共用するいずれかのノードが 8〜9 秒以内に他のノードから HELLO データグラムまたはシーケンス・メッセージを受信できない場合は,受信時間切れでチャネルをクローズする。 "Port closed virtual circuit" というメッセージを受信した場合,チャネルは形成されたが,トラフィックの受信に関する問題が発生したことを示す。この場合,紛失した HELLO データグラム・メッセージを検索する。

図 F-2 では,チャネル形成ハンドシェイクが正常に行われるときのメッセージの交換を示しています。

図 F-2 チャネルの形成のためのハンドシェイク


F.5.2 トラブルシューティングの手法

2 つのノード間の通信が正常に行われなくなり,チャネルの形成に問題があると考えられる場合は,以下の指示に従ってください。

ステップ 操作
1 以下のような明らかな問題が発生していないかどうか確認する。

  • リモート・ノードの電源がオンになっているか。

  • リモート・ノードがブートされているか。

  • 必要なネットワーク接続が確立されているか。

  • クラスタ・マルチキャスト・データグラムが双方向に必要なすべてのブリッジを通過しているか。

  • クラスタ・グループ・コードとパスワードの値がすべてのノードで同一か。

2 SDA を使用して,チャネルに障害がないかどうか確認する。 SDA コマンド SHOW PORT/CHANNEL/VC=VC_ remote_node は,チャネルが存在していたかどうか判断するのに役立つ。このコマンドはチャネルの状態を表示する。

関連項目: SHOW PORT コマンドの例については, 付録 F.3 節 を参照。LAN アナライザを使用してチャネルの形成の問題を解決する方法については, 付録 F.10.1 項 を参照。

3 LAVC$FAILURE_ANALYSIS プログラムを使用して,チャネルの問題に対処する方法については, 付録 D も参照。

F.6 再送に関する問題

ローカル・ノードがタイムリーにメッセージの確認応答を受信しないと,再送が行われます。

F.6.1 再送が発生する理由

送信側のノードがシーケンス・メッセージ・データを含むデータグラムを最初に送信すると,PEDRIVER は TR ヘッダの REXMT フラグ・ビットの値を 0 に設定します。データグラムの再送が必要になると,PEDRIVER は REXMT フラグ・ビットを 1 に設定し,データグラムを再送します。データグラムが受信されるか,仮想サーキットがクローズされるまで,PEDRIVER はデータグラムを再送します。複数のチャネルが使用可能な場合は,PEDRIVER は再送の原因になった問題を回避するために,異なるチャネルでメッセージを再送しようとします。

LRP (large request packets) や非ページング・プールなどの重要なリソースがすべて使用されてしまった等の原因で,メッセージがリモート・ノードに到達したにもかかわらず,紛失する場合は,一般に再送が実行されます。この他にも再送が行われる理由があります。たとえば,LAN ブリッジが過負荷状態である,LAN アダプタが低速である (DELQA など),システムの負荷が非常に高いなどの原因が考えられ,このような場合,パケットの送信や受信で遅延が発生します。 図 F-3 では,最初は送信が失敗した後,再送が成功した様子を示しています。

図 F-3 メッセージの紛失による再送


最初のメッセージが紛失したため,ローカル・ノードはリモート・ノードから確認応答 (ACK) を受信しませんでした。リモート・ノードはメッセージの 2 回目の (正常) 送信に対して,確認応答メッセージを送信しました。

また,ケーブルが正しく接続されていない場合や,ネットワークが非常にビジー状態であるためにデータグラムを送信できない場合,あるいは発信側の LAN アダプタまたはブリッジやリピータによって送信時にデータグラムが破壊または紛失された場合,再送が行われます。 図 F-4 は別の種類の再送を示しています。

図 F-4 ACK の紛失による再送


図 F-4 では,リモート・ノードはメッセージを受信し,送信側のノードに確認応答 (ACK) を送信しています。しかし,受信側ノードからの ACK が紛失したため,送信側ノードはメッセージを再送します。


前へ 次へ 目次 索引