Windows Server 2012 Cluster Problémák

A közelmúltban több ügyfélnél jelentkeztek Windows Server 2012 failover clusterrel kapcsolatos problémák.

Ezek közül én kiemelten a Data Protection Manager mentések során elofoduló hibákkal találkoztam, ezek közül részleteznék is egyet, mert elég kritikus:

Windows Server 2012 Hyper-V Failover Clusteren futó virtuális gépeket mentünk System Center Data Protection Manager 2012 SP1-el. A virtuális gépek mentése során az általuk használt CSV kötet offline állapotba kerül, miáltal a virtuális gépek automatikusan kikapcsolnak.

Az event logokban az alábbi bejegyzéseket találjuk a hiba idopontjára vonatkozóan:

Log Name: System
Source: Microsoft-Windows-FailoverClustering
Date: Date and time
Event ID: 5120
Task Category: Cluster Shared Volume
Level: Error
Keywords:
User: SYSTEM
Computer: Computer name
Description: Cluster Shared Volume 'Volume1' ('name’) is no longer available on this node because of 'STATUS_IO_TIMEOUT(c00000b5)'. All I/O will temporarily be queued until a path to the volume is reestablished.

Log Name: System
Source: Microsoft-Windows-FailoverClustering
Date: Date and time
Event ID: 5142
Task Category: Cluster Shared Volume
Level: Error
Keywords:
User: SYSTEM
Computer: Computer name
Description: Cluster Shared Volume 'Volume3' ('Cluster Disk 4') is no longer accessible from this cluster node because of error 'ERROR_TIMEOUT(1460)'. Please troubleshoot this node's connectivity to the storage device and network connectivity.

Log Name: System

Source: Microsoft-Windows-FailoverClustering Event ID: 5120 Logged: <date/time> Details: Cluster Shared Volume 'Volume2' ('ClusterStorage Volume 2') is no longer available on this node because of 'STATUS_CLUSTER_CSV_AUTO_PAUSE_ERROR(c0130021)'. All I/O will temporarily be queued until a path to the volume is reestablished.

Továbbá a cluster logok is mutatják a hibát:

00000a6c.0000092c::<date/time> INFO [DCM] CsvFs Listener: state [volume <volume ID>, sequence , state CsvFsVolumeStateChangeFromIO->CsvFsVolumeStateDraining, status 0xc00000b5]

00000a6c.0000092c::<date/time> INFO [DCM] CsvFs event CsvFsVolumeStateChangeFromIO for volume FC1:<volume ID>, status STATUS_IO_TIMEOUT(c00000b5)

Ez egy kivizsgált termékhiba, amire adtunk ki hibajavítást:

 

Virtual machine enters a paused state or a CSV volume goes offline when you try to create a backup of the virtual machine on a Windows Server 2012-based failover cluster

https://support.microsoft.com/kb/2813630

A fenti javítást tartalmazza az alábbi hotfix, ami a jelenlegi legaktuálisabb Windows Server 2012 cluster patch, ezért minden Windows Server 2012 Clusteren javaslom a telepítését:

KB2838669 - Update that improves cluster resiliency in Windows Server 2012 is available (https://support.microsoft.com/kb/2838669)

Illetve Data Protection Manager oldalon érdemes az aktuális Update Rollup-ot telepíteni:

KB2802159 - Description of Update Rollup 2 for System Center 2012 Service Pack 1 (https://support.microsoft.com/kb/2802159)