Problemas para agregar un nodo al cluster

Por: Yabin Escarpulli

Hoy les comentaré de un problema que se presentó para poder agregar a un nodo a un cluster Windows 2003 x64 con Service Pack 2

El nodo fue removido del cluster y se volvió a instalar. Cuando se quiso volver a unir al nodo dentro del cluster el wizard enviaba el siguiente mensaje: “A problem occurred when the wizard attempted to start a Service”

Dentro del log del configuración del cluster (ClCfgSrv.log), localizado en: %WINDIR%\system32\LogFiles\Cluster encontramos la siguiente información:

<date> <time> [INFO] [MT] [CTaskCommitClusterChanges] Exiting task. The task was not cancelled. (hr = 0x8007042b)

<date> <time> [INFO] [BC] A runtime error has occurred in file '<path>\cservice.cpp', line 417. Error code is 0x8007042b.

<date> <time> [ERR ] erpbatch1: A problem occurred when the wizard attempted to start a service. (hr=0x8007042b, {7C5F0774-1611-42B5-AF3C-6E124AC4D36B}, {3ABE1494-7E05-402C-81AA-1C3F1D782031}, 1, 1, 1),

El error 0x8007042b significa que el proceso terminó de manera inesperada

En seguida, dentro del log del cluster se pudo encontrar la siguiente información:

0009a8.0000281c:: <date> <time> INFO [NM] Down node set: 0002.

000009a8.0000281c:: <date> <time> INFO [NM] New up node set: 0001.

000009a8.0000281c:: <date> <time> INFO [NMJOIN] Aborting join of node 2 sponsored by node 1

000009a8.0000281c:: <date> <time> INFO [EP] Nodes down event received

000009a8.0000281c:: <date> <time> INFO [EP] Node down event received

000009a8.000009dc:: <date> <time> INFO [GUM] Nodes down: 0002. Locker=1, Locking=1

000009a8.0000281c:: <date> <time> INFO [NM] Cleaning up network and interface states for dead node 2

000009a8.000009dc:: <date> <time> INFO [GUM] Node down processing completed: 0002.

En un principio, parecía un problema con la configuración de las redes que forman el cluster basándonos en el KB https://support.microsoft.com/kb/923840/en-us. Sin embargo, la configuración de red en cada uno de los nodos estaba correcta.

Revisando los componentes del cluster, se pudo detectar que el cluster disk driver no estaba en la consola de Administración de Dispositivos.

image

Para este punto, teníamos que revisar a nivel de registro que todas las llaves del cluster estuvieran igual. Al hacer la revisión, se detecto que, dentro del nodo dañado hacían falta las siguientes:

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Enum\Root\Legacy_Clusdisk

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Enum\Root\Legacy_Clusnet

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\ClusDisk

image

El método más sencillo para reparar las llaves es importarlas del nodo que esta activo. Si no es posible importar alguna de las dos llaves hay que asignar el privilegio de FULL CONTROL a la cuenta ROOT en la cada una de las llaves.

image

Ya que las llaves han sido agredas al server tenemos que reiniciar el servidor.

Ahora tenemos que preparar al nodo activo para recibir el nuevo servidor.

Abrir una ventana de comando en el nodo activo y ejecutar el siguiente comando: cluster node <nodename> /forcecleanup

image

Una vez realizado este paso, en el mismo servidor hay que modificar la siguiente llave de registro: HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\Cluster Server. Buscar el valor Clusterinstallationstate. Abrir el registro y modificar el valor a 1.

image

En este momento ya es posible unir el nodo al cluster.

NOTA: Es posible que al intentar unir el nodo al cluster tengamos el siguiente error: 0x8007042b.

Este problema puede ocurrir si algunas de las siguientes condiciones es verdadera:

  • Que la seguridad de la red este configurada como: LAN Manager authentication level policy to Send NTLMv2 response only\refuse LM & NTLM
  • Que la seguridad de la red este configurada como: Minimum session security for NTLM SSP based (including secure RPC) clients policy to Require NTLMv2 session security
  • Que la seguridad de la red este configurada como: Minimum session security for NTLM SSP based (including secure RPC) servers policy to Require NTLMv2 session security.

Para mayor información de como solucionar este problema, revisar el kb https://support.microsoft.com/kb/890761/en-us