Compaq OpenVMS
OpenVMS Cluster 構成ガイド


前へ 次へ 目次 索引


A.7.2 マルチホスト SCSI 環境におけるエラー・レポートと OPCOM メッセージ

マルチホスト SCSI バスでホストのブートやシャット・ダウンなどの一般的な操作では, SCSI バスの他のホストにエラーが発生することがあります。また,シングル・ホスト SCSI 構成ではまれにしか発生しないエラーが,マルチホスト SCSI バスで発生する場合があります。

このようなエラーを一時的エラーと言い,OpenVMS がエラーを検出,レポートし,回復処理を行っても実行中のアプリケーションのデータが失われたり影響を受けることはありません。この項では,このようなエラーの発生要件,および,オペレータ・コンソールに表示されエラー・ログに入力されるメッセージについて説明します。

A.7.2.1 SCSI バスのリセット

電源入力やリブートで SCSI バスに接続されたホストを最初に起動する際は, SCSI バスやその上のデバイスの状態はホストにはわかりません。ANSI SCSI 標準では, BUS RESET という方式でバスやその上のデバイスを既知の状態に強制的に設定する機能を定めています。ホストは,最初のスタートアップとシャットダウンのときに,各 SCSI バス上で通常は RESET シグナルを 1 回以上表明します。RESET を表明しているホストではこれが正常な動作ですが,RESET ではホストの強制終了と,実行中のすべての I/O 操作の再起動が必要になるため,他のホストにとって RESET シグナルはエラー扱いになります。

ホストが正常な処理の途中で,他の方法では修正できない問題を検出したときもホストはバスをリセットします。このようなリセットは,一般的ではありませんが,通常はバス上の何かが乱れたときに発生します。たとえば,SCSI デバイスがアクティブなときにホット・プラグしようとしたり ( 付録 A.7.6 項 参照),Ctrl/P でホストのどれかを一時停止しようとすると,1 つ以上のホストがバス・リセットを発行しなければならない条件が揃います。

A.7.2.2 SCSI タイムアウト

ホストが SCSI バス上のデバイスとデータを交換するときに,ホストがデバイスや SCSI アダプタの反応を待機しなければならないポイントが数個所にあります。 OpenVMS システムでは,待機中にホストを他の処理に振り向けることができますが,待機時間が長くなりすぎるのを防ぐため,タイマが起動します。SCSI デバイスやアダプタからの応答が来る前にタイマが時間切れになった場合,その状態をタイムアウトと呼びます。

タイムアウトには 3 種類あります。

SCSI OpenVMS Cluster システムでは,タイムアウト・エラーは,避けられないわけではありません。しかし,トラフィックがヘビーな SCSI バスやイニシエータが 2 つある SCSI バスでは,さらに発生頻度が高くなります。タイムアウト・エラーが,必ずしもハードウェアやソフトウェアの問題を意味するわけではありません。頻繁に記録されるようなら,SCSI バスの負荷の軽減を検討してください (たとえば,新規バスの追加など)。

A.7.2.3 マウント検査

マウント検査は,ホストがデバイスについて宣言する状態です。バス・リセットやタイムアウトなど数多くの一時的なエラーの兆候が続くと,ホストがこの状態を宣言します。デバイスがマウント検査状態にある場合,正しいデバイスの存在と,デバイスのアクセス可能状態が確認されるまで,ホストは正常な I/O を中断します。再開後,マウント検査処理は正しいデータの読み書きができる状態で,中断していた I/O を再試行します。アプリケーション・プログラムにとって,マウント検査の状態が発生してもマウント検査が終了するまでは認識できません。

ホストが一定の時間内に正しいデバイスをアクセスできない場合,ホストはマウント検査タイムアウトを宣言し,アプリケーション・プログラムにはデバイスが利用できないことが通知されます。ホストがマウント検査タイムアウトを宣言したら,手作業でデバイスをサービス状態に復元する必要があります。マウント検査タイムアウトは,通常はエラーが一時的ではないことを表します。システム管理者は,マウント検査のタイムアウト時間を指定できます。デフォルトでは 1 時間になります。

A.7.2.4 シャドウ・ボリューム処理

シャドウ・ボリューム処理は,マウント検査に似ていますが,シャドウ・セット・メンバが対象です。シャドウ・セットのどれかのメンバにエラーが発生すると,そのセットはボリューム処理状態になり,OpenVMS がメンバのアクセスを再度確立できるまで I/O はブロックされます。シャドウ・ボリューム処理がタイムアウトになる前にアクセスが確立されると,中断していた I/O が再発行され,シャドウ・セットは正常動作に戻ります。タイムアウトが発生すると,障害の発生したメンバはセットから削除されます。システム管理者は,システム・ディスク・シャドウ・セットのタイムアウト値と,アプリケーション・シャドウ・セットのタイムアウト値を 1 つずつ設定できます。両方のタイムアウトのデフォルトは 20 秒です。

注意

SCSI 切断タイムアウトとデフォルトのシャドウ・ボリューム処理タイムアウトは同じです。SCSI バスの負荷が大きく,切断タイムアウトが発生しそうな場合は,シャドウ・ボリューム処理タイムアウトの値を大きくします。(推奨値は 60 秒です。) これにより,切断タイムアウト・エラーになってもシャドウ・セット・メンバが切断されるのを防ぐことができます。

A.7.2.5 マルチホスト SCSI 環境で表示される OPCOM メッセージ

バス・リセットが発生すると,マウント・ディスクがマウント検査やシャドウ・ボリューム処理を出入りするたびにOPCOM メッセージが表示されます。

ドライブの I/O でタイムアウト・エラーになると,マウント・ディスクがマウント検査やシャドウ・ボリューム処理を出入りするたびにOPCOM メッセージが表示されます。

クォーラム・ディスクや共用 SCSI バスに以上のどちらかのエラーが発生すると,さらに追加の OPCOM メッセージが表示され,クォーラム・ディスクとの接続が失われ,再接続されたことを表します。

A.7.2.6 エラー・ログの基本

OpenVMS システムでは,デバイス・ドライバに異常が発生すると,Error Log ユーティリティでその関連情報を保存できます。従来は,ほとんどの例外条件はハードウェア障害,ソフトウェア障害,一時条件 (ケーブルのゆるみなど) などのエラーの結果として発生していました。

DCL コマンド SHOW ERROR を入力すると,システムは,システムのブート後に発生したエラーの要約を表示します。以下に例を示します。


$ SHOW ERROR
Device                           Error Count 
SALT$PKB0:                               6 
$1$DKB500:                              10 
PEA0:                                    1 
SALT$PKA0:                               9 
$1$DKA0:                                 0 
 

この場合,SALT の SCSI ポート B (PKB0) における 6 つのエラーと,ディスク $1$DKB500 に対する 10 のエラー,その他が記録されています。

これらのエラーの詳細を確認するには,コマンド ANALYZE/ERROR/SINCE= dd-mmm-yyyy:hh:mm:ss を DCL プロンプトで実行します。このコマンドからの出力では,エラー・ログ・エントリのリストが以下のような情報とともに表示されます。


******************************* ENTRY    2337. ******************************* 
ERROR SEQUENCE 6.                               LOGGED ON:  CPU_TYPE 00000002 
DATE/TIME 29-MAY-1995 16:31:19.79                            SYS_TYPE 0000000D 
 
<identification information> 
 
       ERROR TYPE            03 
                                       COMMAND TRANSMISSION FAILURE 
       SCSI ID               01 
                                       SCSI ID = 1. 
       SCSI LUN              00 
                                       SCSI LUN = 0. 
       SCSI SUBLUN           00 
                                       SCSI SUBLUN = 0. 
       PORT STATUS     00000E32 
                                       %SYSTEM-E-RETRY,RETRY OPERATION 
 
<additional information> 
 

この例では,ERROR TYPE に注目してください。また,場合によっては,PORT STATUS フィールドも重要です。この例で,エラー・タイプは 03,COMMAND TRANSMISSION FAILURE,ポート状態は 00000E32,SYSTEM-E-RETRY となっています。

A.7.2.7 マルチホスト SCSI 環境におけるエラー・ログ・エントリ

この項で示したエラー・ログ・エントリは,マルチホスト SCSI 構成で発生するエラーを想定しており,一般には気にかける必要はありません。ただし,この項で紹介した以外のメッセージのエラー・ログ・エントリはよく確認してください。

A.7.3 制限事項と既知の問題

複数のホストを同じSCSI バスに構成した OpenVMS Cluster ソフトウェアには,以下の制限事項があります。

OpenVMS Cluster システムでは,SCSI クォーラム・ディスクがシングル・ホスト SCSI バスにあるかマルチホスト SCSI バスにあるかに関わらず,制限事項が 1 つあります。 SCSI クォーラム・ディスクは,タグ付きコマンド・キューイング (TCQ) をサポートしなければなりません。この制限事項は,クォーラム I/O が OpenVMS SCSI ドライバで受け取る特別な処理に必ず適用します。

いずれにしてもマルチホスト SCSI バス上のディスクは,すべてタグ付きコマンド・キューイングをサポートする必要があり ( 付録 A.7.7 項 参照),クォーラム・ディスクは一般にはシングル・ホスト・バスでは使用しないのでこの制限事項をそれほど気にする必要はありません。

A.7.4 トラブルシューティング

以下の項では,SCSI インターコネクトを使用する OpenVMS Cluster システムの代表的な問題について説明します。


前へ 次へ 目次 索引