파일명의 한글자모가 분해되어 보여지는 현상 (Unicode NFD)


[현상 요약]

애플사의 맥북을 이용해서 회사의 쉐어포인트 사이트를 사용할 수 있습니다. 그런데 쉐어포인트 라이브러리에 “한글.docx” 파일을 업로드 했더니 동료들이 파일명이 이상하게 보인다고 합니다. 실제로 동료 자리에 가서 보면 “ㅎㅏㄴㄱㅡㄹ.docx” 라고 보여집니다. 그런데 맥북에서는 정상적으로 보여집니다.

 

[원인 또는 해결 방법]

이 이슈는 Mac OS 와 Windows 가 서로 다른 Unicode Nomalization Form 을 사용하기 때문입니다.

Mac OS 에서는 NFD(Normalization Form Canonical Decomposition) 방식을 사용하고, Windows 에서는 NFC(Normalization Form Canonical Composition) 방식을 사용합니다. 둘 다 표준이어서 어느 한쪽의 잘못이라고 지목할 수 없는 문제 입니다.

Mac OS 에서는 “한글.docx” 라고 이름을 지으면, 내부적으로 “ㅎㅏㄴㄱㅡㄹ.docx” 로 풀어서 유니코드를 저장해 놓고 이것을 보여줄 때 “한글.docx” 이라고 조합해서 보여줍니다. 반면 Windows 에서는 “한글.docx”이라고 파일명을 지으면 실제로 “한글.docx”으로 조합된 글자의 유니코드를 저장합니다.

한국어 이외에도 라틴어 계열의 언어와 일본어 등에서도 유사한 이슈가 있습니다. 아래 표를 보시면 조금 쉽게 이해하실 수 있습니다.


참고 자료1 : http://unicode.org/reports/tr15

참고 자료 2: https://en.wikipedia.org/wiki/Unicode_equivalence#Example

본 이슈는 사실상 OS 레벨 발생하는 것이어서 SharePoint 서버의 문제는 아닙니다. 실례로 Mac 에서 만들어진 파일을 Windows 로 FTP 나 메일 등을 통해 전달하여 탐색기에서 보면 동일하게 자소가 분리되어 보이는 것을 확인하실 수 있습니다.

Mac OS 에서도, Windows 에서도, 운영체제 사용하고 있는 Unicode Nomalization form 방식을 지정하거나 변경할 수 있는 방법을 제공하지 않습니다. 따라서 공식적인 해결방법이 없다고 말씀 드릴 수 밖에 없습니다.

 

[추가 정보]

공식적인 방법 외에 이 문제를 해결하는 인터넷 사용자들의 Workaround 들이 있어 소개합니다.

본 이슈로 인한 불편을 약간이나마 해소하는데 도움이 될 것으로 기대합니다

– Perl 로 제작된 파일명 변환 스크립트 http://aero2blog.blogspot.kr/2011/07/macos-x.html

– 파이썬으로 제작된 파일명 변환 스크립트 https://pypi.python.org/pypi/nfd2nfc

 

[주의 사항]

본 블로그에 게시된 정보의 내용 (첨부 문서, 링크 등)은 작성일 현재 기준이며 예고없이 변경 될 수 있습니다.

또한, 참고용으로만 제공됨으로 Microsoft에 책임이 없음을 알려 드립니다. 반드시 적용 전 충분한 테스트를 진행하시기 바랍니다.


 


Comments (0)

Skip to main content