Windows Server 2008 R2를 실행하는 데이터베이스 사용 가능 그룹용 권장 Windows 핫픽스





최초 문서 게시일: 2011년 11월 20일 일요일

올해 8월 초에 Windows SE 팀에서는 Windows Server 2008 R2 장애 조치(failover) 클러스터의 문제와 관련하여 다음 KB(기술 자료) 문서 및 그에 해당하는 소프트웨어 핫픽스를 공개했습니다.

KB2550886 – 일시적인 통신 오류로 인해 Windows Server 2008 R2 장애 조치(failover) 클러스터의 작동이 중지됨

여러 데이터 센터에 걸쳐 확대된 모든 데이터베이스 사용 가능 그룹에 대해 이 핫픽스를 적용하는 것이 좋습니다. 여러 데이터 센터로 확대되지 않은 DAG에도 이 핫픽스를 적용하면 유용합니다. 이 문서에서는 Windows 장애 조치(failover) 클러스터에 일시적인 통신 오류가 있을 때 발생할 수 있는 경쟁 조건 및 클러스터 데이터베이스 교착 상태 문제에 대해 설명합니다. 클러스터에 통신 문제가 발생하면 클러스터 노드의 다시 연결 논리 내에서 경쟁 조건이 매니페스트됩니다. 그러면 클러스터 데이터베이스가 중단되어 장애 조치(failover) 클러스터에서 쿼럼이 손실됩니다.

TechNet의 설명과 같이, DAG(데이터베이스 사용 가능 그룹)는 클러스터 데이터베이스를 비롯한 특정 클러스터 기능을 사용합니다. DAG가 작동하고 고가용성을 제공하려면 클러스터 및 클러스터 데이터베이스도 정상적으로 작동해야 합니다.

Microsoft에서는 일시적인 네트워크 오류(약 60초 동안의 네트워크 통신 오류)가 발생하여 전체 클러스터가 교착 상태가 되고 DAG 내의 모든 데이터베이스가 분리되는 다양한 시나리오를 파악했습니다. 실제로 교착 상태가 된 클러스터 노드를 확인하기는 쉽지 않으므로, 다시 연결 논리 경쟁으로 인해 장애 조치(failover) 클러스터가 교착 상태가 되는 경우 교착 상태 상황을 해결하려면 전체 클러스터 내의 모든 구성원을 다시 시작할 수밖에 없습니다.

문제는 대개 비대칭 통신 오류(두 노드가 서로 통신할 수는 없지만 다른 노드와는 계속 통신할 수 있는 상태)로 인한 클러스터 쿼럼 손실 형태로 매니페스트됩니다. 다른 노드에서 클러스터의 GUM(Global Update Manager)으로부터 보내는 클러스터 재그룹 메시지를 받을 때 지연이 발생하는 경우 재그룹 메시지가 잘못된 순서로 수신될 수 있습니다. 이 경우 클러스터에서 정상적인 동작이 호출되는 대신 쿼럼이 손실됩니다. 즉, 초기 통신 오류가 발생한 노드 중 하나가 클러스터에서 제거됩니다.

일반적으로는 연결 끊김이 확인되는 두 클러스터 노드 쌍의 대기 시간이 비대칭인 경우(예: DAG 구성원 중 절반의 대기 시간은 1ms인데 나머지 절반의 대기 시간은 30ms인 경우) 이 버그가 매니페스트됩니다. 첫 번째 노드가 두 번째 노드보다 훨씬 빨리 연결 끊김을 검색하면 경쟁 조건이 발생할 수 있습니다.

  • 첫 번째 노드가 두 노드 간의 스트림 다시 연결을 시작합니다. 그러면 두 번째 노드가 해당 데이터에 새 스트림을 추가합니다.
  • 새 스트림이 추가되면 이전 스트림이 삭제되며 해당 오류 처리기가 무시됩니다. 오류 발생 시 이전 스트림은 오류가 발생했으나 아직 검색되지 않은 스트림입니다.
  • 두 번째 노드는 연결 끊김을 검색하면 자체 다시 연결 시퀀스를 시작합니다. 적절한 경쟁 창에서 연결 끊김이 검색되면 오류가 발생한 스트림의 오류 처리기가 무시로 설정되며 다시 연결 프로세스에서 다시 연결을 시작하지 않습니다. 그러나 송신 큐에 대해 일시 중지가 실행되어 노드 간의 메시지 송신이 중지됩니다. 메시지가 중지되면 GUM이 정상적으로 작동하지 않으며 클러스터가 강제로 다시 시작됩니다.

이 문제가 발생하면 DAG에 매우 좋지 않은 영향을 주게 됩니다. 따라서 DAG의 구성원인 모든 사서함 서버에 이 핫픽스를 배포하는 것이 좋습니다(특히 DAG가 여러 데이터 센터에 걸쳐 확대된 경우). 또한 Exchange 2007 단일 복사본 클러스터를 실행하는 환경과 클러스터 연속 복제 환경에서도 이 핫픽스를 적용하면 유용할 수 있습니다.

KB2550886에는 위에서 설명하는 문제를 해결하는 방법 외에, 역시 DAG에 대해 적용하는 것이 좋은 기타 주요 Windows Server 2008 R2 핫픽스에 대한 설명도 나와 있습니다.

이 문서는 번역된 블로그 게시물입니다. 원본 문서는 Recommended Windows Hotfix for Database Availability Groups running Windows Server 2008 R2를 참조하십시오.


Comments (0)