クラスター ノード間通信障害の一般的な対処方法について

こんにちは。Windows プラットフォーム サポートの吉田です。

最近いくつかいただいたお問い合わせで、フェールオーバー クラスターの構成ノードを再起動したところ、クラスターに参加できなくなった、というお問い合わせがありました。

これらのお問い合わせでは、ネットワーク ボードの IPv6 設定が無効 (ネットワーク ボードのプロパティからチェックボックス OFF) に設定されている状態でノードを再起動した所、クラスターに参加するタイミングで他のノードとのノード間通信に失敗し、参加に失敗するという事象が発生していました。

このような設定を行っている場合、ネットワーク ボードの IPv6 設定は無効になっているものの、OS の内部で使用されている仮想ネットワークでは IPv6 設定が有効になっておりシステム全体、たとえば Microsoft Failover Cluster Virtual Adapter 等では IPv6 が使用されております。

このような状態に陥っていた環境では以下の対処を行うことで改善されました。

 

IPv6 コンポーネントの無効化手順
-----------------
レジストリを変更して IPv6 コンポーネントを無効化します。

・対象レジストリ

 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip6\Parameters\

  (1) regedit.exe を起動して 対象レジストリアドレス に移動します。
  (2) メニューバーから [編集]-[新規]-[DWORD (32 ビット) 値] を選択します。
  (3) 名前には [DisabledComponents] と入力します。
  (4) [DisabledComponents] をダブルクリックし、以下の値を入力します。

  [DisabledComponents]
  値: ff (16進数)

  上記の設定行うことにより、IPv6 ループバック インターフェイス以外のすべての IPv6 コンポーネントを無効にし、さらにプレフィックス ポリシーを IPv6 ではなく IPv4 (Internet Protocol version 4) を使用します。

 (5) 上記の設定内容を反映させる為、システムを再起動します。

 

・参考 サイト
Windows Vista、Windows7、および Windows Server 2008 で特定の IPv6 (Internet Protocol version 6) を無効にする方法
https://support.microsoft.com/kb/929852/ja

連載 IPv6 入門 - 第三回 IPv6 の無効化方法
https://blogs.technet.com/b/jpntsblog/archive/2010/06/17/ipv6-3.aspx

 

もし、同じような現象が発生した場合には、IPv6 コンポーネントの無効化で改善されるかどうかご確認ください。

===============================================================================

 

■ノード間通信に問題が発生した場合の切り分けについて
----------------------------------------------------------------------
また、上記のようなノード間通信の問題によって障害が発生する場合、他に弊社では以下のような対処を実施いただき、切り分けをお願いしております。

 

1. すべてのノードの再起動
----------------------------------------------------------------------
事象発生ノードを含むすべてのノードを停止し、クラスターを一度停止した後、再起動を実施し、改善するかご確認ください。

 

2. クラスター モジュールの最新化
----------------------------------------------------------------------
非常に多くのお客様が RTM の環境や、Service Pack 1 のみ適用した環境で弊社にお問い合わせいただきます。

非常に多くの問題が累積にて修正されておりますので、システムの安定稼働のため、以下のエントリーでもご紹介させていただいております、最新のクラスター関連修正モジュールの適用をご検討ください。

クラスター環境に適用を推奨する修正プログラムについて
https://blogs.technet.com/b/askcorejp/archive/2012/08/16/3514648.aspx

Windows Server 2008 R2 では既知の不具合として、以下の修正プログラムが提供されております。

--クラスターへの再参加に関する問題。
Cluster node cannot rejoin the cluster after the node is restarted or removed from the cluster in Windows Server 2008 R2
https://support.microsoft.com/kb/2549472/en-us

--ノード間通信に関するクラスターの問題
A Windows Server 2008 R2 failover cluster loses quorum when an asymmetric communication failure occurs
https://support.microsoft.com/kb/2552040/en-us

A transient communication failure causes a Windows Server 2008 R2 failover cluster to stop working
https://support.microsoft.com/kb/2550886/en-us

ノード間通信に関する修正プログラムは 2550886 の修正プログラムを適用することにより、2552040 の不具合は解消されますので、2550886 の適用をご検討ください。

 

3. Scalable Networking Pack(SNP)およびタスクオフロードの機能の無効化
----------------------------------------------------------------------
SNP は従来 OS 側で行っていたネットワークパケット処理をネットワークボード 側に委任する機能で、Windows Server 2003 SP2 以降に含まれております。

無効化を行うにはドライバー側でオフロード関連の設定を無効にしていただいた後、OS側の設定も無効にしていただく必要がございます。

OS 側で設定可能な対処は以下のサイトをご覧ください。

予期せぬ挙動が!? 新機能
Scalable Networking Pack をご存知ですか?
https://blogs.technet.com/b/jpntsblog/archive/2010/03/23/scalable-networking-pack.aspx

 

4. ネットワーク ボード ドライバーの更新
----------------------------------------------------------------------
利用されている ネットワークボード ドライバー の製造元より、最新のドライバーを入手し、適用することで改善するかご確認ください。

 

5. サードパーティ製 の アンチウィルス、 Firewall ソフトについて
----------------------------------------------------------------------
過去弊社にお問い合わせいただきました中で比較的よくある事例として、サードパーティ製 の アンチウィルス、 Firewall ソフトがノード間通信を疎外していたために事象が発生していたケースがございました。

このような状況の場合、サービスのみ無効化を実施する場合ではフィルタ ドライバーなどが無効化されない為、事象が改善せずにプログラムのアンインストールを実施しないと事象が改善しないケースが多数ございます。

事象が発生した場合にはクラスターを構成しているすべてのノードにてプログラムのアンインストールをご検討ください

 

6. ノード間通信の問題についての技術情報
----------------------------------------------------------------------
クラスターのノード間通信に関する問題として、以下の技術情報を公開させていただいておりますので、ご紹介します。

今後の安定稼働のため、以下の技術情報ご確認いただき、設定の変更や修正モジュールの適用といった対処の実施をご検討いただければ幸いです。

UDP communication is blocked by the Windows Firewall rule in WSFC when the network connection is interrupted and then restored
https://support.microsoft.com/kb/2701206/en-us
[機械翻訳]
https://support.microsoft.com/kb/2701206/ja

The network location profile changes from "Domain" to "Public" in Windows 7 or in Windows Server 2008 R2
https://support.microsoft.com/kb/2524478/en-us
[機械翻訳]
https://support.microsoft.com/kb/2524478/ja

 

もし、ノード間通信において問題が発生してお困りの状況であれば、上記の対処についてご検討いただければ幸いです。