기본 콘텐츠로 건너뛰기

라벨이 unicode인 게시물 표시

Unicode 2.0 에서 한글의 이해

요즘 SNS이나 SNG등등 기계적으로 문장을 생성하는 프로그램들이 넘쳐나는 시대에 의외로 한글처리를 제대로는 프로그램들이 드물구나 하는 생각에 간단한 한글 자소 분석기를 만들어보았다. 링크는 이쪽( http://jsbin.com/ofoqal/10/edit ) 애초에 만든 목적은 다음과 같다. 조사처리(은/는, 이/가, 을/를 등등)를 위해 단어의 마지막 글자의 종성을 조사하기 위함인데 예문을 들어보자면 "준기 는 강남에서 사진 을 찍었다." "예슬 은 홍대에서 식사 를 했다." "슬기 가 대화방에서 나갔습니다." "준기님은 강남에서 사진님을 찍으셨습니다 고갱님" 이라고 말하면 할말 없다. 한국식 소프트웨어(꼭 소프트웨어가 아니더라도)의 특징이자 장점이 무엇이냐라고 물으면 귀찮을 정도로 깨알같은 디테일이라고 대답할텐데 한글 기계화 작업에 대한 중요성은 프로그램을 만드는 사람들에게도 별로 중요하게 다가오지 않나보다. 에또 사설이 길었다. 한때 우리는 한글코드체계의 비표준 숲속에서 너무도 괴로운 나날들을 보낸 역사가 있다. KSC5601부터 시작해서 Microsoft통합형한글을 지나 Unicode 2.0의 시대가 왔다. 개인적으로 UTF-8을 사용하지 않고 EUC-KR이나 CP949를 쓰는 제품이나 서비스의 업체의 대표/관계자에게 1억 미만의 벌금 혹은 3년 이하의 금고형의 실형을 내려줬으면 할 정도로 너무나 많은 사람들을 불행하게 하고 막대한 비용을 지출한 악의 근원이라고 생각한다. 하지만 광명이 왔다. 기계적으로 납득이 가능한 검색 및 정렬이 용이한 Unicode 의 시대가 열렸단 말이다. 지금 당신이 복사해서 붙이고 있는 팁들 보다 훨씬 쉽고 명쾌하니 다음 그림을 한번 보자. (출처: http://www.w3c.or.kr/i18n/hangul-i18n/ko-code.html ) 어떤가? 무쟈게 쉽지 않은가? 현대 한글은 초성 ...