DPM 2010 や DPM 2007 にてエージェントとの通信が出来ずバックアップに失敗する場合のトラブルシュート

こんにちは、System Center サポート部の石井です。

本日は、DPM 2010 や DPM 2007 にてエージェントとの通信が出来ずバックアップに失敗する事象が出た場合の一般的な対処方法についてご案内いたします。

- 現象

DPM におけるバックアップが不定期に失敗します。その際、[DPM 管理者コンソール] の [監視] タブ – [ジョブ] タブにて失敗するジョブの詳細に表示されるエラー コードはその際に DPM が行っていた処理により様々ですが、失敗したジョブの "詳細: " 以降に表示される一般的なエラーとしては、"既存の接続はリモートホストに強制的に切断されました。 (0x80072746)" や、その他、"RPC サーバーが利用できません。 (0x800706ba)" 等、通信に関与する何らかのエラーとなります。

上記は、DPM と保護対象が WAN 経由で繋がっており、通信が不定期に途切れる、といった環境にて報告されておりますが、ほかにも DPM や保護対象にて一時的な過負荷状態に陥る場合等においても発生することがあります。

- 対処方法

DPM は、通信において 5 分間の不通状態が発生するとタイムアウトします。このタイムアウト値は、以下のレジストリを作成し、設定することで、このタイムアウト値を伸ばすことが可能です。

-------

キーのパス: "HKLM\Software\\Microsoft\Microsoft Data Protection Manager\Agent"

名前: ConnectionNoActivityTimeout

種類: REG_DWORD (DWORD 値)

値: 900 (10 進数、単位は秒です。)

-------

上記キーは既定では存在しませんが、内部的には 300 秒 (5 分間) が使われています。

キーの設定後、各マシンにて DPMRA サービスを再起動して下さい。([管理ツール] – [サービス] の画面にて、DPMRA サービスを再起動します。)

上記設定反映後、改めてバックアップを開始し、現象が改善するかお試し下さい。

- タイムアウト値を伸ばしても改善しない場合

タイムアウト値を、上記の 900 秒や、3600 秒、といった長期間に設定しても改善しない場合、何らかの他の要因にて通信が失敗している可能性が高い状況です。

ネットワーク通信が失敗する原因は、環境に存在するスイッチやファイアウォール等の動作なども関与して複雑ですが、OS やハードウェア レベルにて多く報告されている事象と対処方法としては以下がございます。

(1) Scalable Networking Pack (SNP) の機能を DPM サーバーと保護対象の両サーバーにて無効化していただく

SNP と呼ばれる、ネットワーク処理をハードウェアに任せて効率化するという設定がありますが、稀に当該動作により、特定のネットワーク通信が失敗するといった事象が報告されております。(Ping やリモート デスクトップ、あるいはファイル共有などは成功するが、DPM 等の一部アプリケーションの通信のみ失敗する、といった複雑な発生パターンもございます。)

こういった問題への切り分けにつきましては、以下、弊社ネットワークサポート部のブログ記事をご参考いただき、各サーバーにて SNP の機能をオフにして下さい。

参考: 予期せぬ挙動が!? 新機能 Scalable Networking Pack をご存知ですか?

https://blogs.technet.com/b/jpntsblog/archive/2010/03/23/scalable-networking-pack.aspx

 

 

また、上記の SNP の他、チーミングやオフロードなどの NIC の最適化機能をご利用の場合には、こういった最適化機能の影響の結果、特定の通信が遅延、もしくは失敗するという事象が多数報告されています。

ハードウェアの動作が影響しているかどうかの切り分けの為に、NIC の最適化機能をご利用の場合にはこれらの NIC の最適化機能を無効にする事をご検討下さいますようお願い申し上げます。
※ 可能な限り、通信の発生する両端のマシンでの設定を行って下さい。

1. [ファイル名を指定して実行] にて "ncpa.cpl" を実行します。

2. [ネットワーク接続] の画面が表示されるので、該当のローカル エリア接続の [プロパティ] を表示します。

3. "ネットワーク" タブの "構成" ボタンをクリックします。

4. NIC のプロパティが表示されるので、"詳細設定" タブに移動します。

5. ハードウェアにより、設定項目名は異なりますが、以下のような設定がある場合、全て無効化します。

   - Large Send Offload (LSO)
   - Chimney Offload
   - Teaming
   - <IPv4 か IPv6> Checksum Offload
   - TCP/UDP Checksum Offload (IPv4 か IPv6)
   - Jumbo Packet

(上記設定項目以外にも、ハードウェア特有の設定コンソールが存在するものもございます。ハードウェア固有の最適化を確実に無効化する方法についての詳細は、ハードウェア製作元にお問い合わせ下さいますようお願いいたします。)

6. システム再起動を行い、設定を反映させます。

上記の影響として、本来 NIC が行っていた最適化が行えなくなるため、CPU 側の処理が一部増加するといった影響が発生します。

 

(2) DPM のネットワーク帯域制御の機能を有効化する

DPM のデータのやりとりについては、データ転送用のチャネル (TCP/IP) と、その他のコントロール用チャネルとして DCOM (RPC) の 2 種類を使用しており、帯域が狭い場合等でデータ転送用のチャネルが帯域を圧迫してしまった場合、コントロール用の帯域が取れず、通信が行えているにもかかわらず命令のやりとりが長時間出来ない状況に陥る場合があります。

これを避けるため、切り分けとして DPM のネットワーク帯域の調整を行い、帯域を絞って下さい。 (通常の推奨値としては、80 ~ 90 % 程度に設定して下さい。また、この際の設定値は、DPM から保護対象までの経路にて、最も狭くなる帯域からの 80 % ~ 90 % の帯域幅を指定します。)

※ ネットワーク帯域の調整方法は、各 DPM 製品のヘルプ “コンピュータ レベルのネットワーク帯域幅の調整を有効にする方法” をご参考下さい。

(3) 上記いずれも有効ではない場合、DPM サーバー自体が過負荷な状況にある場合がございます。保護グループの設定を変更し、バックアップが同時に走らないようにスケジュールして、現象が回避可能かお試し下さい。