リソース正常性を使って、自分のリソースに何が起きたのかを確認する

こんにちは、Azure プラットフォーム サポートの石井です。

 

Azure プラットフォームでは、「リソース正常性」という機能があり、お客様の IaaS VM などのリソースが「今正常に稼働しているかどうか」、「過去に Azure 基盤側の要因にてダウンしたことがあるか」の両方が参照できます。

特に、IaaS 利用者からすると、自社の VM が一時的にダウンしていた場合、自社の管理下の OS やアプリケーションの問題なのか、Azure データセンターの問題なのか、真っ先に切り分けがしたいことかと存じます。この場合に、役に立つ機能となります。

Azure Resource Health の概要
/ja-jp/azure/resource-health/resource-health-overview

リソース正常性の使い方

1. Azure ポータルの右上の、「?」 マークをクリックし、[ヘルプとサポート] を選択します。

2. [ヘルプとサポート] ブレードのメニューから、[リソース正常性] をクリックします。

3. VM、PaaS (App Service や SQL データベース等) の、リソース正常性に対応したリソースが一覧されます。ここで、緑のチェック マークになっているものは、正常に動作しているものです。

 

※ 上記方法で、リソースすべてが一覧表示できます。仮想マシンなど、各リソースのブレードからも、当該リソースに関しての [リソース正常性] にアクセスすることができます。

 

過去、予期せずダウンしたことが疑われるリソースについては、クリックし、[履歴の表示] をクリックしてください。

 

vm_resourcehealth2

以下のように、過去 Azure 基盤側の要因で利用できない時間があったケースについては、時間と説明が記載されます。

 

history2

 

 

最後に、リソース正常性についての FAQ をおまとめしました。

 

- リソースの状態が「不明」と出る時間帯がある

[リソース正常性] に何らかのトラブルがあり、情報が残っていない部分となります。「不明」というステータスは、必ずしも、VM がダウンしている旨を示すものではありません。VM のイベント ログや Syslog を確認し、ダウンしていないか、ご確認下さい。

 

- リソース正常性はどの程度新しい情報となるのか

最大で 15 分程度の遅れが生じます。

 

- リソース正常性では正常と出ていたが、「VM への疎通が行えなかった」「VM が再起動していた」 などのトラブルがあった

Azure 基盤では、VM の電源が入っている状態をもとに、VM が稼働状態であるとみなします。しかしながら、内部の OS やアプリケーション レベルの不具合があって、ユーザーがサービス利用できなかった場合には、Azure のリソース正常性を使ってこのような問題を検知することは出来ません。Azure 基盤側の VM の稼働状態はお客様のサービスとしての稼働の正常性とはイコールになりません。監視については、お客様のサービス構成にあったプロトコルにて、外部から疎通監視をしていただくことをお奨めします。

参考情報: 新規リリースされた “Azure Monitor” 機能を使って、利用中のリソースに影響しうる大規模障害が発生した場合にメール通知を受け取る
https://blogs.technet.microsoft.com/jpaztech/2017/04/10/notifyshdupdate/
-> 本文後半の、"「お客様のサービスへの監視の考え方」" の項をご参照下さい。

 

- 自動的に通知させるには

時期は未定ですが、多くのご要望をいただいており、Azure Monitor という機能のメール通知と連動するようにできる見込みです。
PowerShell などで、当該情報を入手することも現時点では不可能です。