Ask CORE

Microsoft Japan Windows Technology Support

Azure 上でフェールオーバー クラスターを構築する際の留意事項について

こんにちは。Windows プラットフォーム サポートの加藤です。 本日は、Azure 上でフェールオーバー クラスターを構築する際の留意事項についてご案内します。最近、Azure 上の仮想マシンで構築したフェールオーバー クラスターがハートビート通信のダウンでフェールオーバーが発生する報告がございました。 ハートビート通信とは、ノード間で実施される通信で、目的はノード間ネットワークの死活監視です。全てのハートビート通信がダウンすると相手ノードが停止したと判断します。フェールオーバー クラスターのハートビート通信のタイムアウトの閾値の既定値は 5 秒であり、これを超えてもハートビート通信ができない場合には、相手ノードのダウンと判断され、停止したノードがアプリケーションのオーナーノードであった場合には、そのアプリケーションは他のノードへフェールオーバーされます。 – 参考フェールオーバー クラスターのハートビートについてhttp://blogs.technet.com/b/askcorejp/archive/2012/03/22/3488080.aspx Azure 環境では、後述の計画的なメンテナンス時に 30 秒ほど仮想マシンが一時停止する場合がございます。30 秒間クラスター ノードが停止すると、もう一方のクラスター ノードは、一時停止しているノードとハートビート通信が実施できない状況に陥り、上述の事象が発生します。 ========================================Azure Virtual Machines に対する計画的なメンテナンスhttps://azure.microsoft.com/ja-jp/documentation/articles/virtual-machines-planned-maintenance/該当箇所を抜粋します。 Microsoft Azure の更新のクラスの場合、実行中の仮想マシンに何らかの影響があってもお客様にはわかりません。これらの更新の多くは、実行中のインスタンスに干渉することがなく更新可能なコンポーネントまたはサービスを対象にしています。これらの更新の一部は、ホスト オペレーティング システムのプラットフォーム インフラストラクチャに対する更新であり、仮想マシンの完全な再起動を必要とせずに適用できます。 これらの更新は、ライブ移行 ("メモリ保護" 更新) を実現するテクノロジによって達成されます。更新時、仮想マシンは "一時停止" 状態になり、RAM 内のメモリは保護されます。この状態で、基礎となるホスト オペレーティング システムが必要な更新プログラムと修正プログラムを受信します。仮想マシンは、30 秒以内の一時停止で再開されます。再開後、仮想マシンのクロックは自動的に同期されます。 このメカニズムを使用してすべての更新をデプロイできるわけではありませんが、一時停止の期間が短い場合、この方法で更新をデプロイすることにより、仮想マシンへの影響が大幅に軽減されます。 複数インスタンスの更新 (可用性セット内の仮想マシンの場合) が、一度に 1 つの更新ドメインに適用されます。======================================== フェールオーバーの発生自体は、クラスター上のアプリケーションを救うための正常な動作ですが、Azure メンテナンス時に極力フェールオーバーの発生を抑えたい場合には、このハートビートの閾値を事前に延長しておくことをお勧めいたします。 具体的な設定値につきましては、クラスター上のアプリケーションの停止時間がどの程度まで許容できるかによって異なります。例えば 20 秒間の停止では、クラスター上のアプリケーションを使用したシステムに影響を及ぼさないのであれば、ハートビートの閾値を 21 秒に延長することで、Azure… Read more

フェールオーバー クラスターにディスク リソースが追加できない。

こんにちは。Windows プラットフォーム サポートの加藤です。 本日は、フェールオーバー クラスターにディスク リソースが追加できない事象について、ご案内します。 フェールオーバー クラスターにディスク リソースを追加するためには、以下の要件に合致する必要があります。 1. 共有ストレージが SCSI-3 の Persistent Reservation (永続的な予約) に対応している。2. MBR or GPT 形式で初期化されている。3. ダイナミック ディスクではなくベーシック ディスクを使用している。 しかしながら、上記の要件を満たしており、構成が正しいにも関わらず、フェールオーバー クラスター マネージャーで「ディスクの追加」ボタンをクリックしても、追加可能なディスクが無いメッセージが表示され、ディスク リソースが追加できない事象の報告がありました。 この事象では、当該ディスク (LUN) 上に、何らかの原因で前述の Persistent Reservation (永続的な予約) が残っていたために、新たに Persistent Reservation (永続的な予約) ができなくなり、その結果ディスク リソースの追加ができない状況に陥っていました。 クラスターは、Persistent Reservation (永続的な予約) を使用して、ディスクの所有権を管理するため、予約ができないディスクはクラスターに追加できません。 弊社過去事例では、ストレージの障害発生後に、ストレージ側で復旧処理を実施し、ディスク リソースをクラスターに再度登録しようとした際に本問題が発生していました。 そのため、構成が正しいにも関わらず、追加に失敗する場合には、Persistent Reservation (永続的な予約)が残っている可能性が考えられます。 もし、前述の要件を満たしており、構成が正しいにも関わらず、ディスク リソースが追加できない現象が発生した場合には Persistent Reservation (永続的な予約) を強制的に解除する以下のコマンドを実行して、正常にディスク… Read more

クラスター調査に必要な情報収集について

こんにちは。 平素は弊社製品をご愛顧いただき誠にありがとうございます。  運用を頂いておりますお客様のクラスター環境は問題無く動作しておりますでしょうか。高可用性を謳うフェールオーバー クラスター製品ですが、長く運用を頂く中で外部的な要因も含め、クラスターが障害を検知したりフェールオーバーが発生する場合もあるかと存じます。 障害調査依頼として弊社にお問い合わせを頂く場合、お伺いした現象や障害に対して調査の為の情報取得をお願いすることがあります。この記事では初期調査を行なううえで最低限必要になる情報をご案内します( 実際の調査ではその過程においてあらためて現象の確認や追加情報のお願いをさせていただく場合があります。お手数をお掛けする事となりますが何卒、ご理解と共にご協力を頂けますようよろしくお願い申し上げます)。一般的にフェールオーバー クラスターの調査では部分的なエラー情報だけではなく構成や動作を確認する必要がありますので、以下 (a)~(f) の様な情報が必要になります。またフェールオーバー クラスターは複数の Windows サーバーが連携して動作しますので、情報採取はクラスターを構成する全てのノードが対象になります。実機からのログ情報採取とは別に、確認いただいた発生障害と状況についても是非、お教えください (障害対応の現場は修羅場同然でそれどころではないと思いますが、後から思い出せる範囲でも結構です。現場で実際に目で観て頂いた情報は何よりも重要であることが多くあります)。 情報保存を頂きたい情報 ◆ Windows OS の情報 (a) システム情報 (msinfo32.exe) : 全ノードで採取(b) イベント ログ情報 Evtx+CSV形式 (eventvwr.exe) : 全ノードで採取(c) ネットワーク情報 (ipconfig.exe) : 全ノードで採取 ◆ フェールオーバー クラスターの情報 (d) クラスター診断ログ (cluster.exe/Get-ClusterLog) : 全ノードで採取 … ※(e) クラスター リソースとグループの情報 (cluster.exe/Get-Cluster)  : 1台のノードで採取(f) クラスター ハイブ (reg.exe) : 1台のノードで採取 ※ クラスター診断ログはサイズ固定の循環ログですので、時間が経過することにより古いログから上書きされてしまいます。障害が発生した後は可能な限り速やかに保存と回収をお願いします。… Read more

Windows Server 2008 以降のフェールオーバー クラスターにおけるクラスター グループの設定変更について

こんにちは。Windows プラットフォーム サポートの加藤です。 今回はクラスター グループに関する注意事項についてご紹介します。 1. クラスター グループとは クラスター グループはクラスター コア リソースと呼ばれるクラスターの構成を管理するための重要なリソースを含むグループです。クラスター コア リソースとは、クラスター名を表すクラスター名オブジェクト (CNO) 、クラスター情報へのアクセスするための IP アドレス、クォーラム構成用のディスク監視の 3 つのリソースを指します。 クラスター グループはクラスター自身の管理をする特別なグループのため、通常のクラスター化されたアプリケーションのグループとは役割が異なります。そのため、Windows Server 2003 以前では、ほかのクラスター化されたアプリケーションと同じツリーの配下に配置され GUI から容易に変更が可能でしたが、Windows Server 2008 以降は、GUI のクラスターの概要のペインに移動され、操作が制限されるようになりました。※ Windows Server 2008 / 2008 R2 では GUI からのクラスター グループの移動やリソースの追加、設定変更ができなくなりましたが、Windows Server 2012 以降では移動のみ GUI から実施可能になりました。 クラスター コア リソースを含むクラスター グループのデフォルトのグループ名は Windows Server 2008 R2 までは… Read more