밀어서 잠금해제

[C++/CLI] Windows에서 Text Encoding 감지하기. (MLang) 본문

Programming||Study

[C++/CLI] Windows에서 Text Encoding 감지하기. (MLang)

HAYAN_DEV! 2015.12.04 22:25

시작하기전에 유니코드에는 BOM이 필요 없다고 울부짖는 분들에게 분노의 글 좀 적겠습니다.

전부터 무언가 만들어 볼 때 마다 항상 제 발목을 붙잡는 녀석이 있었습니다. 그게 바로 인코딩이죠.
Linux에서는 UTF-8이 기본이니까 그냥 UTF-8로 열어서 보여줘버리면 그만인데 Windows는 그게 아니란말이죠.

세상에는 여러 인코딩이 존재합니다. 그런 인코딩의 존재를 깡그리 무시해버리고 'UTF-8이 진리다'를 외치며 BOM을 달지도 않고 텍스트를 배포하시는 불친절한 분들 덕분에 언제나 우리는 고생합니다. BOM을 달면 유니코드 계열은 8 16 32 등등 을 아주 쉽게 구분할 수 있는데도 불구하고 그 3바이트를 아낀다고 아무도 저장하지 않아요. 이 얼마나 무식한 짓인지;

저 BOM을 달지 않아서 벌어지는 일들을 볼까요?
자주 나오는 글자들의 각 인코딩별 저장되는 비트값을 확인하여 "확률"적으로 이 텍스트 파일은 UTF-8이다 16이다를 계산하고 앉아있습니다;
3바이트만 체크하면 끝나는걸;
더 나아가볼까요?
모질라에서 만든 캐릭터 디텍터라던가 모두 제대로 작동할 것 같나요? 글자 수가 적으면 적을수록 감출 확률은 떨어지고 그 만큼 실패할 확률도 올라갑니다.
그 뿐인가요? 그 캐릭터 디텍터는 누가 개발하나요. 라이브러리 주워다가 쓰면 가능하지만 그게 제대로 작동하는 라이브러리인지 아닌지는 테스트 하기 전까지는 모릅니다. 그 수 많은 라이브러리 테스트해서 사용하실려구요? BOM 달면 3바이트만 체크하면 되는데? 여러분의 하드는 2.5인치 플로피 디스켓 보다 작아서 3바이트를 저장하면 큰일인가요?

아직도 BOM이 필요 없다고 주장하실 생각이신가요? '이 세상에 워드프로세서따위 한글과 컴퓨터에서 개발한 한글밖에 없으면 모두가 hwp파일을 쓸테니 걱정이 없다.' 와 같은 의견으로 들릴 뿐입니다.

그런관계로 여러분 제발 유니코드엔 BOM좀 달아주세요. 제발 이게 세계 표준이되길 바랍니다. 힘들거든요 -ㅅ-;

자 그래서. 시작해보죠.

ASP.Net에서 이 인코딩 디텍터를 사용할 일이 있는데 C#에서 COM+쓰는 방법을 모르겠더라구요...
그래서 조금 찾아보려다가 그냥 C++/CLI로 만든 다음 ASP.Net 프로젝트에 참조 추가했습니다;

ASP.Net에서 C++/CLI로 만든 dll을 사용하는 방법은 다음에 써보겠습니다. 근대 무지 쉽습니다.

Windows는 XP의 서비스팩 몇인진 기억이 안나지만(...) 쨋든 이후로 MLang라는 녀석을 제공해주고 있습니다.
인코딩 관련 COM+ 라이브러리인데 굉장히 잘 작동해서 맘에듭니다. 이 녀석을 써보도록 하죠.


#include <MLang.h>
using namespace System;

namespace EncodingUtility {
	public ref class EncodingDetector
	{
	public:
		EncodingDetector();
		~EncodingDetector();

		int GetEncodingFromFile(String^ fileName);
		int GetEncodingFromBinary(char* binary, int size);

	private:
		IMultiLanguage2* mlang2;
	};
}


헤더파일입니다. 무지간단하네요; 바로 cpp코드를 보죠.


#include "EncodingDetector.h"

using namespace System::IO;
using namespace System::Text;

EncodingUtility::EncodingDetector::EncodingDetector()
	: mlang2(nullptr)
{
	IMultiLanguage2* tmpMlang = nullptr;
	auto result = CoCreateInstance(CLSID_CMultiLanguage, NULL, CLSCTX_ALL, IID_IMultiLanguage2, (void**)&tmpMlang);
	mlang2 = tmpMlang;

	if (result != S_OK)
		throw gcnew System::Exception("에러");
}

EncodingUtility::EncodingDetector::~EncodingDetector()
{
	if (mlang2 != nullptr)
		mlang2->Release();
}

int EncodingUtility::EncodingDetector::GetEncodingFromFile(String^ fileName)
{
	FileStream^ fs = gcnew FileStream(fileName, FileMode::Open, FileAccess::Read, FileShare::Read);
	BinaryReader^ br = gcnew BinaryReader(fs);
	
	// 필요하시다면 아래 4096 사이즈를 더 높여주세요. 많이 읽을 수록 검출율은 높아집니다.
	auto buffer = br->ReadBytes(4096);
	pin_ptr<System::Byte> pinBuffer = &buffer[0];
	unsigned char* pBuffer = pinBuffer;

	int length = buffer->Length;
	DetectEncodingInfo info;
	int score = 1;
	HRESULT result = mlang2->DetectInputCodepage(0, 0, reinterpret_cast<char*>(pBuffer), &length, &info, &score);

	fs->Close();
	if (result == S_OK)
		return info.nCodePage;
	else
		return -1;
}

int EncodingUtility::EncodingDetector::GetEncodingFromBinary(char * binary, int size)
{
	int length = size;
	DetectEncodingInfo info;
	int score = 1;
	HRESULT result = mlang2->DetectInputCodepage(0, 0, binary, &length, &info, &score);

	if (result == S_OK)
		return info.nCodePage;
	else
		return -1;
}


역시 간단하네요. COM을 사용하니까 클래스 사용 전 CoInitialize() 함수 호출하시는거 잊지 마시구요!

DetectInputCodepage에 관한 자세한 내용은 MSDN을 참고해주시기 바랍니다.

대략적으로 이 함수는 한번에 여러 개의 인코딩을 리턴 할 수 있습니다.
왜 여러개를 리턴하냐구요? BOM이 없는 텍스트 파일이 있기 때문이죠 ㅡㅡ;
지금 위의 코드에서는 가장 확률이 높은 1개만 가져오게 해놨지만 BOM이 없을 경우 UTF-16일 수도 있고 UTF-8일 수도 있기 때문에 가장 확률이 높은 인코딩부터 순서대로 인덱스에 넣어주는 모양입니다.

코드페이지에 대한 결과 역시 MSDN을 참고해주세요. 윈도우 개발자는 MSDN이 있어서 행복합니다...
https://msdn.microsoft.com/en-us/library/windows/desktop/dd317756%28v=vs.85%29.aspx


C#에서는 Encoding.GetEncoding(GetEncodingFromFile("test.txt")) <- 이런 식으로 사용하실 수 있습니다.
감지 실패시 -1을 리턴하므로 예외처리 해주시면되겠습니다.

뭐 이건 간단하게 만들어본 SafeComInitializer이라는 클래스입니다.
헤더는 올릴 필요가 없어보이므로 그냥 cpp 코드만 올리겠습니다.


#include "SafeComInitializer.h"

bool SafeComInitializer::ComInitialize()
{
	static SafeComInitializer initializer;
	return initializer.isInitialized;
}


SafeComInitializer::~SafeComInitializer()
{
	if (canUninitialize == true)
		CoUninitialize();
}


SafeComInitializer::SafeComInitializer()
	: isInitialized(false), canUninitialize(false)
{
	if (isInitialized == false)
	{
		auto result = CoInitializeEx(NULL, COINIT_MULTITHREADED);
		if (result == S_OK)
		{
			isInitialized = true;
			canUninitialize = true;
		}
		else if (result == S_FALSE)
		{
			isInitialized = true;
			canUninitialize = false;
		}
	}
}


신고
0 Comments
댓글쓰기 폼