利用 OMS 監控 Active Directory 的複寫狀態

Active Directory 是企業 IT 環境中的一個關鍵元件。為了確保 AD 的高性能和高可用性,每一個 domain 控制器都有自己的 AD 資料庫副本,而 domain 控制器之間會互相複製,以在公司中傳播改變。若在複製過程中發生故障,很可能在整個企業中引發一系列的問題,因此時時刻刻掌握複製狀態是任何 AD 管理員的重要任務。

為了幫助您掌握 AD 複製狀態,OMS 提供了 Active Directory Replication 解決方案。這個方案會偵測您 AD 環境中所有複製失敗,並顯示在 OMS 的儀表板上。

開始使用 Active Directory Replication 解決方案

若您還沒有 OMS 工作區,可以至 建立新工作區 免費建立。

接著,您需要將至少一個 domain 控制器連接至 OMS。(請參考:將 Windows 電腦連接到 OMS)

若您希望從您 domain 中一個已連接到 OMS 的 Server 中執行,而非 domain 控制器的話,您需要在該 Server 中設定下列註冊,並重新啟動Health Service:

HKLM\SOFTWARE\Microsoft\AzureOperationalInsights\Assessments_Targets
Value: ADReplication

成功連結至少一個 domain 控制器到 OMS 後,前往 OMS 儀表板中的方案庫(Solution Gallery),並點選 AD Replication 解決方案。

使用 AD Replication 解決方案

當您將此方案加入您的工作區後,便會開始在 OMS 儀表板上看到與您的 AD 環境複製失敗相關的數據,例如:

此方塊每隔幾天就會自動更新,因此您始終能夠看到您環境中複製錯誤的最新資訊。點擊此方塊可以進入 AD Replication 狀態儀表板,可以看到偵測出的錯誤的詳細資訊。

接著讓我們更仔細地查看此儀表板中的資訊。

Destination Server 狀態和 Source Server 狀態


此區塊顯示了遇到複製錯誤的 Destination Server 和 Source Server 的狀態。在每個 domain 控制器名稱後面的數字,表示在該 domain 控制器上的複製錯誤數量。

同時顯示出 Destination Server 和 Source Server 是因為有些問題從 Source Server 做故障排除較容易,而有些從 Destination Server 做較容易。

當你點選 domain 控制器的名稱,便會進到記錄搜尋的頁面,在此頁中您可以看到在特定 domain 控制器上錯誤的詳細資訊。

理所當然,所有 OMS 記錄搜尋的強大功能都可以使用,因此您可以深入查看問題的根本原因。

此記錄搜尋頁面還為每個錯誤提供了 HelplLink ,您可以點選它連結到 TechNet 的文件,得到更詳細的說明和解決辦法。

複製錯誤種類


此方塊提供了在您的環境中偵測到的複製錯誤的種類。每個錯誤都有其特定的代碼和訊息來幫助您分析錯誤的根本原因。

上方的原圖讓您可以清楚看到不同錯誤發生頻率的高低。在此範例中,我們可以看到有下列兩種錯誤:

  • 1722 (發生3次)
  • 1256 (發生2次)

此表顯示了錯誤代碼和相關訊息。同樣的,您也可以點選列表中的錯誤訊息進到記錄搜尋頁面,查看特定的錯誤代碼在您的整個環境中不同發生點的詳細資訊。下圖顯示了錯誤代碼 1722 的詳細資訊:

Tombstone Lifetime


Tombstone Lifetime 決定一個被刪除的物件(又稱為 tombstone)在 Active Directory 中的保留時間。當被刪除的物件過了 tombstone lifetime,垃圾處理程序便會自動將它從 AD 中移除。

現在大部分 Windows 版本的 default tombstone lifetime 都是180天,但在較舊的版本則為60天,而這是可以被 AD 管理員更改的。

很重要的一點是要知道您是否有複製錯誤接近或是已經過了 tombstone lifetime。若有兩個 domain 控制器遇到一個複製錯誤過了 tombstone lifetime,即使您將底層的複製錯誤修復了,這兩個 domain 控制器的複製仍會失效。

Tombstone Lifetime 的方塊幫助您辨識哪些地方存在著這樣的危機。在上圖中您可以看到有5個錯誤是超過100%的 tombstone lifetime。這每一個錯誤都代表了一個 Destination Server 和 Source Server 之間在至少此叢集的 tombstone lifetime 內都沒有相互複製的部分。同樣的,您可以點選 Over 100% TSL 來深入查看這些錯誤的詳細資訊。如下圖:

在此案例中,OMS 在 2017/3/3 收集資料(TimeGenerated),而前一次同步(LastSuccessfulSync) 是在 2016/3/11。很明顯的,這個時間遠遠超過了 tombstone lifetime。

在這種情況下,只修復複製錯誤是不夠的,您需要進行一些手動調查來識別和清除延遲對象,才能重新啟動複製。您甚至可能需要停用該 domain 控制器。

除了辨別已經超過 tombstone lifetime 的複製錯誤外,您也可以注意 "50-75% TSL" 或是 75-100% TSL"。這些錯誤通常不是短暫的而且經久不消的,需要您的干預來解決。但是好消息是它們還沒到達 tombstone lifetime,因此只要即時在它們到達 tombstone lifetime 之前修復即可復原。

經由上述可以發現, OMS 的 AD Replication 解決方案可以幫助您管理您的複製錯誤,並能讓您在錯誤發生時快速修正。

若想領解更多,請參考:Active Directory Replication Technologies