Ask CORE

Microsoft Japan Windows Technology Support

イベント FailoverClustering 1230 について

こんにちは。Windows プラットフォーム サポート担当です。 本日は、クラスター環境で発生するイベント ID 1230 (ソース:Microsoft-Windows-FailoverClustering) についてご紹介します。   – イベント ID 1230 クラスターではリソースに対する操作 (正常性チェック LooksAlive, IsAlive など) で応答が無い場合に、リソースの応答を待ち続けることでクラスターの動作が停止することを防ぐためにタイムアウト値 DeadlockTimeout が設けられています。 リソースの操作が DeadlockTimeout 値を超えて完了しないとタイムアウトが発生しイベント ID 1230 が記録されます。   – イベント ID 1230 の原因調査 イベント ID 1230 が記録された時のクラスター ログからは何の操作でタイムアウトが発生したかを確認することができますが、リソースの操作が停止しタイムアウトした原因はイベント ログやクラスター ログなどから調査することが困難となります。   // リソース Disk01 への操作 LOOKSALIVE がタイムアウトしたことを示すクラスター ログ ERR   [RHS] RhsCall::DeadlockMonitor: Call LOOKSALIVE timed out… Read more

マルチサイト クラスター環境で記録されるイベント ID 1135 について

こんにちは。Windows プラットフォーム サポート担当です。 本日は、弊社に比較的多くお問い合わせをいただくマルチサイト クラスター環境で記録されるイベント ID 1135 について対処策を紹介します。   – イベント ID 1135 イベント ID 1135 はクラスター ノード間のハートビート通信がすべてのネットワークで失敗し、クラスターを構成するノードがクラスターから除外されたことを示すイベントです。 ハートビート通信はクラスター ノード間で定期的 (既定で 1 秒毎) にパケットの送受信が行われ、一定の期間パケットが届かないと失敗と判断されます。   <参考> フェールオーバー クラスターのハートビートについて https://blogs.technet.microsoft.com/askcorejp/2012/03/22/156/   通常、シングルサイト クラスター環境ではクラスターで使用されるネットワークが複数構成されているため、一つのネットワークで問題が発生した場合でも他のネットワークでノード間の通信が可能であればイベント ID 1135 は記録されません。   一方、マルチサイト クラスター環境ではノード間通信が WAN 回線を経由しておこなわれるため、WAN 回線が不安定な場合、ハートビート通信が失敗しイベント ID 1135 が記録されクラスターを構成するノードがクラスターから除外される問題が発生します。   実際にマルチサイト クラスター環境では、WAN 回線の問題によりイベント ID 1135 が記録される報告が弊社まで多く寄せられていますが、ネットワークの問題のため弊社にお問い合わせをいただいても OS 側からは調査が困難です。 クラスターでは既定で 5… Read more

データ コレクター セットの停止に時間がかかる事象について

皆さんこんにちは。 Windows プラットフォーム サポートの丸山です。 本日は、パフォーマンス モニターのデータ コレクター セットの停止に時間がかかる事象について、ご紹介させていただきます。 ■ データ コレクター セットの停止にかかる時間について 弊社では、データ コレクター セットの停止を実行すると、数分から数十分かかる。といったお問い合わせや、データ コレクター セットを停止してから開始しようとすると失敗するときがある。といったお問い合わせをいただくことがあります。 このような場合、データ マネージャーの設定にて、“データ管理とレポート生成を有効にする” のチェックが有効になっているために、データ コレクター セットの停止処理に時間がかかっている可能性があります。 図:“データ管理とレポート生成を有効にする” のチェックの場所 データ マネージャーによる処理にはどれぐらい時間がかかるのか、実際に試してみましょう。 以下の例は、Azure 上に A1 Basic サイズの VM を作成し、System Performance のテンプレートを元に 24 時間のログ採取を行ったものです。データ コレクター セットの停止に 25 分ほどかかっています。 図:”データ コレクター セット” の停止に 25 分かかる例 またこちらは同じ A1 Basic サイズの VM において “データ管理とレポート生成を有効にする” のチェックを外し、24 時間のログ採取を行ったものですが、データ… Read more

“Network List Service” が無効化されているとタスク スケジューラの管理コンソールでエラーが発生します

こんにちは。 Windows Platform サポートの丸山です。 本日は、タスク スケジューラーの管理コンソールで表示されるエラーの件について、ご紹介いたします。 ■ 発生する事象について Windows Vista や Windows Server 2008 以降の OS では、ネットワークの場所の管理のため、”Network List Service” というサービスが動作しておりますが、”Network List service” が無効化されている環境では、タスク スケジューラの管理コンソール画面で、タスクの条件を表示しようとすると、タスク スケジューラの管理コンソール画面にてエラーが発生し、スナップインがアンロードされてしまいます。 図:”Network List service” が無効化されている様子 図:タスク スケジューラの管理コンソールのエラー画面 (1) 図:タスク スケジューラの管理コンソールのエラー画面 (2) 図:タスク スケジューラの管理コンソールのエラー画面 (3) ■ 事象の回避策について 本事象は、”Network List Service” が無効化されており、”条件” タブの内容を表示するための情報の取得が失敗することで発生します。 “Network List Service” が無効化されている状況は、非推奨の状態となりますため、”Network List Service” のスタートアップの種類を “手動” または “自動”… Read more

フェールオーバー クラスターにディスク リソースが追加できない。

こんにちは。Windows プラットフォーム サポートの加藤です。 本日は、フェールオーバー クラスターにディスク リソースが追加できない事象について、ご案内します。 フェールオーバー クラスターにディスク リソースを追加するためには、以下の要件に合致する必要があります。 1. 共有ストレージが SCSI-3 の Persistent Reservation (永続的な予約) に対応している。2. MBR or GPT 形式で初期化されている。3. ダイナミック ディスクではなくベーシック ディスクを使用している。4. 全ノードで同一のディスク (LUN) が認識されている ※ ディスク (LUN) の認識状況は [ディスクの管理] コンソールで確認可能です。 しかしながら、上記の要件を満たしており、構成が正しいにも関わらず、フェールオーバー クラスター マネージャーで「ディスクの追加」ボタンをクリックしても、追加可能なディスクが無いメッセージが表示され、ディスク リソースが追加できない事象の報告がありました。 この事象では、当該ディスク (LUN) 上に、何らかの原因で前述の Persistent Reservation (永続的な予約) が残っていたために、新たに Persistent Reservation (永続的な予約) ができなくなり、その結果ディスク リソースの追加ができない状況に陥っていました。 クラスターは、Persistent Reservation (永続的な予約) を使用して、ディスクの所有権を管理するため、予約ができないディスクはクラスターに追加できません。 弊社過去事例では、ストレージの障害発生後に、ストレージ側で復旧処理を実施し、ディスク リソースをクラスターに再度登録しようとした際に本問題が発生していました。… Read more

クラスター調査に必要な情報収集について

こんにちは。 平素は弊社製品をご愛顧いただき誠にありがとうございます。  運用を頂いておりますお客様のクラスター環境は問題無く動作しておりますでしょうか。高可用性を謳うフェールオーバー クラスター製品ですが、長く運用を頂く中で外部的な要因も含め、クラスターが障害を検知したりフェールオーバーが発生する場合もあるかと存じます。 障害調査依頼として弊社にお問い合わせを頂く場合、お伺いした現象や障害に対して調査の為の情報取得をお願いすることがあります。この記事では初期調査を行なううえで最低限必要になる情報をご案内します( 実際の調査ではその過程においてあらためて現象の確認や追加情報のお願いをさせていただく場合があります。お手数をお掛けする事となりますが何卒、ご理解と共にご協力を頂けますようよろしくお願い申し上げます)。一般的にフェールオーバー クラスターの調査では部分的なエラー情報だけではなく構成や動作を確認する必要がありますので、以下 (a)~(f) の様な情報が必要になります。またフェールオーバー クラスターは複数の Windows サーバーが連携して動作しますので、情報採取はクラスターを構成する全てのノードが対象になります。実機からのログ情報採取とは別に、確認いただいた発生障害と状況についても是非、お教えください (障害対応の現場は修羅場同然でそれどころではないと思いますが、後から思い出せる範囲でも結構です。現場で実際に目で観て頂いた情報は何よりも重要であることが多くあります)。 情報保存を頂きたい情報 ◆ Windows OS の情報 (a) システム情報 (msinfo32.exe) : 全ノードで採取(b) イベント ログ情報 Evtx+CSV形式 (eventvwr.exe) : 全ノードで採取(c) ネットワーク情報 (ipconfig.exe) : 全ノードで採取 ◆ フェールオーバー クラスターの情報 (d) クラスター診断ログ (cluster.exe/Get-ClusterLog) : 全ノードで採取 … ※(e) クラスター リソースとグループの情報 (cluster.exe/Get-Cluster)  : 1台のノードで採取(f) クラスター ハイブ (reg.exe) : 1台のノードで採取 ※ クラスター診断ログはサイズ固定の循環ログですので、時間が経過することにより古いログから上書きされてしまいます。障害が発生した後は可能な限り速やかに保存と回収をお願いします。… Read more

クラスターのハートビート通信の設定値の範囲について

こんにちは。Windows プラットフォーム サポートの永岡です。 今回のトピックはクラスターのハートビート通信に関わるパラメーターの設定値 (閾値) について分かりやすくご紹介したいと思います。 ハートビートとはクラスター ノード間で互いのノードの正常性を確認するための仕組みで、詳細につきましては以下の記事がございます。ハートビート通信の設定変更手順などの記載がございますので、こちらにつきましても、ぜひご一読ください。   フェールオーバー クラスターのハートビートについて  http://blogs.technet.com/b/askcorejp/archive/2012/03/22/3488080.aspx このハートビートに関するパラメータの設定可能な範囲については、Windows Server 2008 および Windows Server 2012 / 2012 R2 では公開された情報がありましたが、Windows Server 2008 R2 における設定可能値の情報は、公開されておりませんでした。 そのため、当ブログでは Windows Server 2008 R2 を含めた OS  バージョン毎のハートビート通信の設定値の範囲についてまとめさせていただきます。 ■ Windows Server 2008 における設定値の範囲 Parameter Default Minimum  Maximum SameSubnetDelay      1000 ミリ秒 (1秒) 250 ミリ秒 (0.25 秒) 2000 ミリ秒 (2… Read more

Hyper-V フェールオーバー クラスター環境で VM の移動後に、移動元のノードに VM の情報が残ってしまう

こんにちは。Windows プラットフォーム サポートの加藤です。本日は、Hyper-V フェールオーバー クラスターの環境で、仮想マシンの移動後に、移動元のノードに仮想マシンの情報が残ってしまう事象の回避策をご案内します。※ [移動] = ライブ、クイック マイグレーションとフェールオーバーを含む所有者変更を指します。 Hyper-V フェールオーバー クラスターの環境で、仮想マシンの移動後に、移動元のノードに情報が残ってしまい、移動元の Hyper-V マネージャーと、移動先の Hyper-V マネージャーの両方に同じ仮想マシンが表示される場合がございます。 また、この問題が発生すると、仮想マシンの情報が二つのノードで重複して表示される以外に、以下の事象が発生する場合もございます。 1. ライブ マイグレーションやクイック マイグレーションを実行すると [時間がかかっています] と表示され、完了しない。2. 仮想マシンを最新の情報に更新をしても同様に [時間がかかっています] と表示され、正常に完了しない。3. すべてのノードの Hyper-Vマネージャーで仮想マシンが表示されなくなる。※ この時、移動元のノードのクラスター サービスを停止すると、移動元の Hyper-V マネージャーと、移動先の Hyper-V マネージャーの両方に同じ仮想マシンが表示されることが確認できます。 通常であれば、移動元のノードからは、情報が削除されるため、両方のノードで表示されることはございません。表示されるのは、仮想マシン リソースのオーナーノードのみです。 しかしながら、何らかの原因で情報が残ってしまった場合には、両ノードで表示されてしまいます。上記状態に陥ってしまった場合には、以下の手順で復旧可能です。 以下の手順は移動元のノードで実施します。 1. まず、ノード上に不要な情報が残っているか確認します。———————————————————当該ノード上に仮想マシン リソースがすでに存在していない (他のノード上に存在している) にもかかわらず、以下のフォルダに XML ファイル (ファイル名:<VmID>.XML) が存在する場合は、情報が残っています。 —————————-"C:\ProgramData\Microsoft\Windows\Hyper-V\Virtual Machines Cache""C:\ProgramData\Microsoft\Windows\Hyper-V\Virtual Machines"—————————- ファイル名例:00866BD3-E68F-4724-B891-82048BD0D60C.xml※ 00866BD3-E68F-4724-B891-82048BD0D60C は VmID… Read more

クラスター ノード間通信障害の一般的な対処方法について

こんにちは。Windows プラットフォーム サポートの吉田です。 最近いくつかいただいたお問い合わせで、フェールオーバー クラスターの構成ノードを再起動したところ、クラスターに参加できなくなった、というお問い合わせがありました。 これらのお問い合わせでは、ネットワーク ボードの IPv6 設定が無効 (ネットワーク ボードのプロパティからチェックボックス OFF) に設定されている状態でノードを再起動した所、クラスターに参加するタイミングで他のノードとのノード間通信に失敗し、参加に失敗するという事象が発生していました。 このような設定を行っている場合、ネットワーク ボードの IPv6 設定は無効になっているものの、OS の内部で使用されている仮想ネットワークでは IPv6 設定が有効になっておりシステム全体、たとえば Microsoft Failover Cluster Virtual Adapter 等では IPv6 が使用されております。 このような状態に陥っていた環境では以下の対処を行うことで改善されました。   IPv6 コンポーネントの無効化手順—————–レジストリを変更して IPv6 コンポーネントを無効化します。 ・対象レジストリ  HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip6\Parameters\   (1) regedit.exe を起動して 対象レジストリアドレス に移動します。  (2) メニューバーから [編集]-[新規]-[DWORD (32 ビット) 値] を選択します。  (3) 名前には [DisabledComponents] と入力します。  (4) [DisabledComponents]… Read more

ノード再起動後に、クラスター サービスが、エラー 6609 [無効なログ ブロックが見つかりました。] で起動しない

こんにちは。Windows プラットフォーム サポートの加藤です。本日は、ノード再起動後にクラスター サービスが起動できなくなる障害事例についてご紹介します。 今回ご紹介させていただく内容としましては以下の3 点です。 <障害内容><回避策><原因特定の調査について> <障害内容>ノードを再起動させた際に、イベント ログに以下のエラーが記録され、クラスター サービスの起動に失敗する。 ——————————-ログの名前:         Systemソース:           Service Control Managerイベント ID:       7024レベル:           エラー説明:Cluster Service サービスは、サービス固有エラー ログ サービスで、無効なログ ブロックが見つかりました。 で終了しました。——————————- また、クラスター ログには以下のエラー ログが記録されます。 —————ERR   [CS] Service CreateNodeThread Failed, ERROR_LOG_BLOCK_INVALID(6609)' because of '::CreateLogFile( fileName.c_str(), GENERIC_READ | GENERIC_WRITE, FILE_SHARE_READ | FILE_SHARE_WRITE, sa, OPEN_ALWAYS, FILE_ATTRIBUTE_NORMAL )'————— 上記ログに記録された [無効なログ ブロックが見つかりました。] と [ERROR_LOG_BLOCK_INVALID(6609)'] は、クラスター サービスが使用するファイルの一部である clusdb.blf… Read more