Ask CORE

Microsoft Japan Windows Technology Support

イベント FailoverClustering 1230 について

こんにちは。Windows プラットフォーム サポート担当です。 本日は、クラスター環境で発生するイベント ID 1230 (ソース:Microsoft-Windows-FailoverClustering) についてご紹介します。   – イベント ID 1230 クラスターではリソースに対する操作 (正常性チェック LooksAlive, IsAlive など) で応答が無い場合に、リソースの応答を待ち続けることでクラスターの動作が停止することを防ぐためにタイムアウト値 DeadlockTimeout が設けられています。 リソースの操作が DeadlockTimeout 値を超えて完了しないとタイムアウトが発生しイベント ID 1230 が記録されます。   – イベント ID 1230 の原因調査 イベント ID 1230 が記録された時のクラスター ログからは何の操作でタイムアウトが発生したかを確認することができますが、リソースの操作が停止しタイムアウトした原因はイベント ログやクラスター ログなどから調査することが困難となります。   // リソース Disk01 への操作 LOOKSALIVE がタイムアウトしたことを示すクラスター ログ ERR   [RHS] RhsCall::DeadlockMonitor: Call LOOKSALIVE timed out… Read more

マルチサイト クラスター環境で記録されるイベント ID 1135 について

こんにちは。Windows プラットフォーム サポート担当です。 本日は、弊社に比較的多くお問い合わせをいただくマルチサイト クラスター環境で記録されるイベント ID 1135 について対処策を紹介します。   – イベント ID 1135 イベント ID 1135 はクラスター ノード間のハートビート通信がすべてのネットワークで失敗し、クラスターを構成するノードがクラスターから除外されたことを示すイベントです。 ハートビート通信はクラスター ノード間で定期的 (既定で 1 秒毎) にパケットの送受信が行われ、一定の期間パケットが届かないと失敗と判断されます。   <参考> フェールオーバー クラスターのハートビートについて https://blogs.technet.microsoft.com/askcorejp/2012/03/22/156/   通常、シングルサイト クラスター環境ではクラスターで使用されるネットワークが複数構成されているため、一つのネットワークで問題が発生した場合でも他のネットワークでノード間の通信が可能であればイベント ID 1135 は記録されません。   一方、マルチサイト クラスター環境ではノード間通信が WAN 回線を経由しておこなわれるため、WAN 回線が不安定な場合、ハートビート通信が失敗しイベント ID 1135 が記録されクラスターを構成するノードがクラスターから除外される問題が発生します。   実際にマルチサイト クラスター環境では、WAN 回線の問題によりイベント ID 1135 が記録される報告が弊社まで多く寄せられていますが、ネットワークの問題のため弊社にお問い合わせをいただいても OS 側からは調査が困難です。 クラスターでは既定で 5… Read more

データ コレクター セットの停止に時間がかかる事象について

皆さんこんにちは。 Windows プラットフォーム サポートの丸山です。 本日は、パフォーマンス モニターのデータ コレクター セットの停止に時間がかかる事象について、ご紹介させていただきます。 ■ データ コレクター セットの停止にかかる時間について 弊社では、データ コレクター セットの停止を実行すると、数分から数十分かかる。といったお問い合わせや、データ コレクター セットを停止してから開始しようとすると失敗するときがある。といったお問い合わせをいただくことがあります。 このような場合、データ マネージャーの設定にて、“データ管理とレポート生成を有効にする” のチェックが有効になっているために、データ コレクター セットの停止処理に時間がかかっている可能性があります。 図:“データ管理とレポート生成を有効にする” のチェックの場所 データ マネージャーによる処理にはどれぐらい時間がかかるのか、実際に試してみましょう。 以下の例は、Azure 上に A1 Basic サイズの VM を作成し、System Performance のテンプレートを元に 24 時間のログ採取を行ったものです。データ コレクター セットの停止に 25 分ほどかかっています。 図:”データ コレクター セット” の停止に 25 分かかる例 またこちらは同じ A1 Basic サイズの VM において “データ管理とレポート生成を有効にする” のチェックを外し、24 時間のログ採取を行ったものですが、データ… Read more

Microsoft サポート情報採取ツール (MSDT) の実行を行う際に 0x800B010A が発生する場合の対処方法について

こんにちは。Windows プラットフォーム サポートの福田です。 今回は Windows Server 2008 R2 環境にて Microsoft サポート情報採取ツール (MSDT) の実行を行う際に 0x800B010A が発生する場合の対処方法についてご紹介いたします。 MSDT の詳細につきましては以下を参照ください。 マイクロソフト サポート診断パッケージについて   具体的な現象 Windows Server 2008 R2 環境にて Microsoft サポート情報採取ツール (MSDT) の実行を行う際に、以下の画像のようにエラー 0x800B010A が発生し、MSDT の実行に失敗します。   原因 Windows Update が行われていない環境などでは Microsoft Certificate Authority 2011 の証明書が存在しないため、MSDT の実行に失敗してしまいます。   解決策 Microsoft Certificate Authority 2011 証明書を MSDT を実行するマシンにインストールします。 ※ 再起動は不要です。… Read more

“Network List Service” が無効化されているとタスク スケジューラの管理コンソールでエラーが発生します

こんにちは。 Windows Platform サポートの丸山です。 本日は、タスク スケジューラーの管理コンソールで表示されるエラーの件について、ご紹介いたします。 ■ 発生する事象について Windows Vista や Windows Server 2008 以降の OS では、ネットワークの場所の管理のため、”Network List Service” というサービスが動作しておりますが、”Network List service” が無効化されている環境では、タスク スケジューラの管理コンソール画面で、タスクの条件を表示しようとすると、タスク スケジューラの管理コンソール画面にてエラーが発生し、スナップインがアンロードされてしまいます。 図:”Network List service” が無効化されている様子 図:タスク スケジューラの管理コンソールのエラー画面 (1) 図:タスク スケジューラの管理コンソールのエラー画面 (2) 図:タスク スケジューラの管理コンソールのエラー画面 (3) ■ 事象の回避策について 本事象は、”Network List Service” が無効化されており、”条件” タブの内容を表示するための情報の取得が失敗することで発生します。 “Network List Service” が無効化されている状況は、非推奨の状態となりますため、”Network List Service” のスタートアップの種類を “手動” または “自動”… Read more

Windows Server バックアップにおける容量と世代管理について

こんにちは。Windows プラットフォーム サポートの野村です。 今回は Windows Server バックアップにおける容量と世代管理についてご紹介します。   Windows Server バックアップは OS 標準で搭載されている機能です。 GUI とコマンド (Wbadmin.exe) によるバックアップ・リストアができます。 バックアップ データの保存形式として仮想ディスク (VHD または VHDX 形式) を使用し、VSS (ボリューム シャドウ コピー サービス) の機能を用いて複数世代のバックアップを保持できます。 バックアップ データの格納先として、[バックアップ専用のハードディスクにバックアップする]、[ボリュームにバックアップする] と [共有ネットワーク フォルダーにバックアップする] を指定できますが、格納先の種類により保持可能なバックアップの世代数が異なります。 バックアップ格納先での容量の圧迫を避けるために、バックアップの容量・世代数を制限したいとのお問い合わせをいただくことがあります。 本ブログでは、この世代数の管理の違いについてご案内いたします。     ============================= 保持可能なバックアップの世代数について ============================= それぞれのバックアップ格納先における世代管理について纏めると、以下の表のようになります。 バックアップ格納先 世代 世代数の変更 バックアップ格納先の容量が圧迫した場合の動作 [バックアップ専用のハードディスクにバックアップする] 最大 512 世代保存 変更不可 シャドウ コピーを保存する容量が足りないと最も古い世代から自動的に削除 (※)… Read more

フェールバックの動作について

こんにちは。Windows プラットフォーム サポートの加藤です。本日は、フェールオーバー クラスターの機能のひとつであるフェールバックについてご紹介させていただきます。 ■フェールバックとはフェールバックとは、障害が発生したノードが再び利用できる状態になった時点で、フェールオーバーにより移動したサービスまたはアプリケーションが既定のノードへ自動的に移動する設定です。既定値では無効となっていますが、[フェールバックを許可する] を有効にすることで設定いただくことができます。 以下、フェールバックの動作について Node 1 , Node 2 の 2 台のノードでクラスターを構成する環境を例にご紹介させていただきます。 (1) 通常稼働状態 通常時の構成は、下記の図のように仮想マシンを 2 台ずつそれぞれのノードがホストする構成です。仮想マシン 1 (VM 1 :以下仮想マシンは VM と記載)、VM 2 は優先所有者を Node 1 として [フェールバックを許可する] を設定しています。 Node 1 : VM 1、VM 2Node 2 : VM 3、VM 4 (2) 障害の発生 (クラスター サービスの停止) Node 1 で何らかの障害が発生し、Node 1 のクラスター サービス (または OS… Read more

フェールオーバー クラスターにディスク リソースが追加できない。

こんにちは。Windows プラットフォーム サポートの加藤です。 本日は、フェールオーバー クラスターにディスク リソースが追加できない事象について、ご案内します。 フェールオーバー クラスターにディスク リソースを追加するためには、以下の要件に合致する必要があります。 1. 共有ストレージが SCSI-3 の Persistent Reservation (永続的な予約) に対応している。2. MBR or GPT 形式で初期化されている。3. ダイナミック ディスクではなくベーシック ディスクを使用している。4. 全ノードで同一のディスク (LUN) が認識されている ※ ディスク (LUN) の認識状況は [ディスクの管理] コンソールで確認可能です。 しかしながら、上記の要件を満たしており、構成が正しいにも関わらず、フェールオーバー クラスター マネージャーで「ディスクの追加」ボタンをクリックしても、追加可能なディスクが無いメッセージが表示され、ディスク リソースが追加できない事象の報告がありました。 この事象では、当該ディスク (LUN) 上に、何らかの原因で前述の Persistent Reservation (永続的な予約) が残っていたために、新たに Persistent Reservation (永続的な予約) ができなくなり、その結果ディスク リソースの追加ができない状況に陥っていました。 クラスターは、Persistent Reservation (永続的な予約) を使用して、ディスクの所有権を管理するため、予約ができないディスクはクラスターに追加できません。 弊社過去事例では、ストレージの障害発生後に、ストレージ側で復旧処理を実施し、ディスク リソースをクラスターに再度登録しようとした際に本問題が発生していました。… Read more

クラスター ハートビート通信の失敗と OS の負荷について

*1 2013/12/15 VSS の修正プログラムの情報を追記しました。 こんにちは。Windows プラットフォーム サポートの加藤です。 Windows Server 2008 以降のクラスター環境において、OS の負荷が原因で、クラスター ハートビート通信が失敗するお問い合わせをいただくことがよくあります。 また、場合によっては、一部のノードのクラスター サービスが停止し、フェールオーバーが発生する場合があります。 クラスター ハートビート通信の詳細とハートビートのタイムアウト変更手順については、下記 Blog にてご紹介しているため、ここでは省略させていただきます。 フェールオーバー クラスターのハートビートについて http://blogs.technet.com/b/askcorejp/archive/2012/03/22/3488080.aspx クラスター ハートビート通信は、上記の Blog でも触れられているように、既定で 5 秒間通信が途絶えるとハートビート通信の失敗と判断され、エラーが記録されます。 「通信が途絶える」という点については、ネットワーク上の問題以外にも、OS の負荷が著しく増加した場合にハートビート パケットの送信が一定期間できなくなり、ハートビート通信が失敗と判断されることがあります。 ハートビートの通信を妨げる高負荷の原因としては様々な要因がありますが、弊社製品では VSS (Volume Shadow Copy Service) が、大容量のディスクに対し SnapShot を作成した際に、この問題が発生する事例が報告されております。Snapshot が作成されるタイミングとしては、該当ボリュームのバックアップを取得しようとした際や、共有フォルダのシャドウ コピーを有効にしている場合があります。 また、Windows Server 2012 では、重複除去機能を有効にした場合にも VSS が使用されます。 Snapshot 作成時には、一時的にボリュームに対する I/O を停止する必要があるため、できる限り高い優先度で素早く実行する必要があります。そのため、ハートビートなどの Snapshot 作成以外の処理が待たされ、結果としてハートビート通信が失敗する場合があります。 また… Read more

クラスター調査に必要な情報収集について

こんにちは。 平素は弊社製品をご愛顧いただき誠にありがとうございます。  運用を頂いておりますお客様のクラスター環境は問題無く動作しておりますでしょうか。高可用性を謳うフェールオーバー クラスター製品ですが、長く運用を頂く中で外部的な要因も含め、クラスターが障害を検知したりフェールオーバーが発生する場合もあるかと存じます。 障害調査依頼として弊社にお問い合わせを頂く場合、お伺いした現象や障害に対して調査の為の情報取得をお願いすることがあります。この記事では初期調査を行なううえで最低限必要になる情報をご案内します( 実際の調査ではその過程においてあらためて現象の確認や追加情報のお願いをさせていただく場合があります。お手数をお掛けする事となりますが何卒、ご理解と共にご協力を頂けますようよろしくお願い申し上げます)。一般的にフェールオーバー クラスターの調査では部分的なエラー情報だけではなく構成や動作を確認する必要がありますので、以下 (a)~(f) の様な情報が必要になります。またフェールオーバー クラスターは複数の Windows サーバーが連携して動作しますので、情報採取はクラスターを構成する全てのノードが対象になります。実機からのログ情報採取とは別に、確認いただいた発生障害と状況についても是非、お教えください (障害対応の現場は修羅場同然でそれどころではないと思いますが、後から思い出せる範囲でも結構です。現場で実際に目で観て頂いた情報は何よりも重要であることが多くあります)。 情報保存を頂きたい情報 ◆ Windows OS の情報 (a) システム情報 (msinfo32.exe) : 全ノードで採取(b) イベント ログ情報 Evtx+CSV形式 (eventvwr.exe) : 全ノードで採取(c) ネットワーク情報 (ipconfig.exe) : 全ノードで採取 ◆ フェールオーバー クラスターの情報 (d) クラスター診断ログ (cluster.exe/Get-ClusterLog) : 全ノードで採取 … ※(e) クラスター リソースとグループの情報 (cluster.exe/Get-Cluster)  : 1台のノードで採取(f) クラスター ハイブ (reg.exe) : 1台のノードで採取 ※ クラスター診断ログはサイズ固定の循環ログですので、時間が経過することにより古いログから上書きされてしまいます。障害が発生した後は可能な限り速やかに保存と回収をお願いします。… Read more