기본 콘텐츠로 건너뛰기

node.js 로 만드는 원격 갈무리 도구

jsdom 이 역시 최고.
검진 기관명 목록을 통째로 뽑기 위해 node.js 로 짜보았다.
한글 문제는 iconv 를 설치해서 해결. euc-kr > utf-8으로 변환함.
jsdom 과 iconv 가 설치하는데 까칠거려서 애좀 먹었음.
http://pastie.org/4078210
결과물은 엑셀에서 뽑기 좋게
993 광양사랑치과의원 광양사랑치과의원 전라남도 광양시 공영로 73, 3층 (중동) (☎ 061-795-2879) 내원 출장 994 광양시보건소 광양시보건소 전남 광양시 광양읍 칠성리70 (☎ 061-797-4008) 내원 출장 995 광양웰치과의원 광양웰치과의원 전라남도 광양시 불로로 87, 3층 (중동) (☎ 061-793-7588) 내원 출장 996 광양의원 광양의원 제주특별자치도 제주시 서광로 302, 4층 ... (☎ 064-723-8275) 내원 출장 997 광장수진산부인과의원 광장수진산부인과의원 경기도 부천시 원미구 부일로 202-13, ... (☎ 032-328-9686) 내원 출장 998 광제산부인과의원 광제산부인과의원 충청남도 천안시 서북구 서부18길 23, (... (☎ 041-575-3200) 내원 출장 999 광주21세기병원 광주21세기병원 광주광역시 광산구 임방울대로 164,(운남동... (☎ 062-953-7000) 내원 출장 1000 광주굿모닝병원 광주굿모닝병원 광주광역시 북구 북문대로 182, (운암동) (☎ 062-250-1000) 내원 출장

이런식으로 대략 나옴.
vi에서 복사하기 좋게 41라인을 안넘은게 자랑. 발소스는 안자랑.
cluster 를 써서 멀티코어 돌렸으면 좋았을 것을.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
var Iconv = require('iconv').Iconv;
var iconv = new Iconv('EUC-KR', 'UTF-8//TRANSLIT//IGNORE');
var jsdom = require('jsdom');
var maxidx=1695; // 1695;
var fd='\t';
var getHTML=function(idx) {
jsdom.env({
  html: 'http://hi.nhic.or.kr/ggpr001_r03.do?pageIndex='+idx,
  encoding: 'binary',
  scripts: [
    'http://code.jquery.com/jquery-1.5.min.js'
  ],
  done: function(errors, window) {
    var $ = window.$;
    var rst = '';
    $(".default_list tr").each(function(k,v) {
      if (k>1) {
        var line=$("td",v).map(function(kk,vv) {
          return (k%2===0 && kk===1) ? $(vv).attr('title')+fd+
                  $(vv).html().replace(/<br[ /]*>/g,fd) : $(vv).text();
        });
        for (var i=0; i<line.length; i++) {
          rst += line[i].replace(/^\s*|\s*$/g, '')+fd;
        }
        if (k%2===1) {
         var buf = new Buffer(rst.length);
         buf.write(rst, 0, rst.length, 'binary');
         console.log(iconv.convert(buf).toString());
         rst = '';
        }
      }
    });
    if (idx<maxidx)
      getHTML(idx+1);
  }
});
}
getHTML(1);

댓글

  1. 현재 node.js로만 서버를 구성해놨는데 외부에서 post요청이 들어오는데 폼에 담긴 값들이 euc-kr로 인코딩된 것이라서. 변환이 필요합니다. 어떻게 사용가능할까요?

    var iconv = require('iconv-lite');
    var str = iconv.decode(receviedData, 'utf-8');
    이렇게 해보았는데.
    str : "[object Object]"
    이렇게 콘솔에 찍히네요. 뭐가 문제일까요.

    답글삭제
  2. 계속 해보고 있는데 iconv모듈 설치에서 너무 많이 막히네요. python깔라고 나와서 깔고나니 vcbuild필요하다고 하고 그래서 .net framework sdk 깔고나니까 이젠 이젠 이해할 수 없는 에러가 뜨네요. 주말안에 해결해야 하는 부분인데 도움 주실수 있으실까요.ㅠㅠ
    appleguy@naver.com나 010-962공-팔003 입니다. 염치없지만 여쭤볼곳을 찾기가 쉽지 않네요.

    답글삭제
  3. 윈도우에선 안해봐서 잘 모르겠습니다.
    의존성 관련해서 문제가 너무 많아서 우분투 서버를 사용하고 있습니다.

    답글삭제

댓글 쓰기

이 블로그의 인기 게시물

Unicode 2.0 에서 한글의 이해

요즘 SNS이나 SNG등등 기계적으로 문장을 생성하는 프로그램들이 넘쳐나는 시대에 의외로 한글처리를 제대로는 프로그램들이 드물구나 하는 생각에 간단한 한글 자소 분석기를 만들어보았다. 링크는 이쪽( http://jsbin.com/ofoqal/10/edit ) 애초에 만든 목적은 다음과 같다. 조사처리(은/는, 이/가, 을/를 등등)를 위해 단어의 마지막 글자의 종성을 조사하기 위함인데 예문을 들어보자면 "준기 는 강남에서 사진 을 찍었다." "예슬 은 홍대에서 식사 를 했다." "슬기 가 대화방에서 나갔습니다." "준기님은 강남에서 사진님을 찍으셨습니다 고갱님" 이라고 말하면 할말 없다. 한국식 소프트웨어(꼭 소프트웨어가 아니더라도)의 특징이자 장점이 무엇이냐라고 물으면 귀찮을 정도로 깨알같은 디테일이라고 대답할텐데 한글 기계화 작업에 대한 중요성은 프로그램을 만드는 사람들에게도 별로 중요하게 다가오지 않나보다. 에또 사설이 길었다. 한때 우리는 한글코드체계의 비표준 숲속에서 너무도 괴로운 나날들을 보낸 역사가 있다. KSC5601부터 시작해서 Microsoft통합형한글을 지나 Unicode 2.0의 시대가 왔다. 개인적으로 UTF-8을 사용하지 않고 EUC-KR이나 CP949를 쓰는 제품이나 서비스의 업체의 대표/관계자에게 1억 미만의 벌금 혹은 3년 이하의 금고형의 실형을 내려줬으면 할 정도로 너무나 많은 사람들을 불행하게 하고 막대한 비용을 지출한 악의 근원이라고 생각한다. 하지만 광명이 왔다. 기계적으로 납득이 가능한 검색 및 정렬이 용이한 Unicode 의 시대가 열렸단 말이다. 지금 당신이 복사해서 붙이고 있는 팁들 보다 훨씬 쉽고 명쾌하니 다음 그림을 한번 보자. (출처: http://www.w3c.or.kr/i18n/hangul-i18n/ko-code.html ) 어떤가? 무쟈게 쉽지 않은가? 현대 한글은 초성 ...

MQTT 접속해제 - LWT(Last will and testament)

통신에서 중요하지만 구현이 까다로운 문제로 "상대방이 예상치 못한 상황으로 인하여 접속이 끊어졌을때"의 처리가 있다. 이것이 까다로운 이유는 상대방이 의도적으로 접속을 종료한 경우는 접속 종료 직전에 자신의 종료 여부를 알리고 나갈 수 있지만 프로그램 오류/네트웍 연결 강제 종료와 같은 의도치 않은 상황에선 자신의 종료를 알릴 수 있는 방법 자체가 없기 때문이다. 그래서 전통적 방식으로는 자신의 생존 여부를 계속 ping을 통해 서버가 물어보고 timeout 시간안에 pong이 안올 경우 서버에서 접속 종료를 인식하는 번거로운 방식을 취하는데 MQTT의 경우 subscribe 시점에서 자신이 접속 종료가 되었을 때 특정 topic으로 지정한 메시지를 보내도록 미리 설정할 수 있다. 이를 LWT(Last will and testament) 라고 한다. 선언을 먼저하고 브로커가 처리하게 하는 방식인 것이다. Last Will And Testament 라는 말 자체도 흥미롭다. 법률용어인데  http://www.investopedia.com/terms/l/last-will-and-testament.asp 대략 내가 죽으면 뒷산 xx평은 작은 아들에게 물려주고 어쩌고 하는 상속 문서 같은 내용이다. 즉, 내가 죽었을(연결이 끊어졌을) 때에 변호사(MQTT Broker - ex. mosquitto/mosca/rabbitMQ등)로 하여금 나의 유언(메시지)를 상속자(해당 토픽에 가입한 subscriber)에게 전달한다라는 의미가 된다. MQTT Client 가 있다면 한번 실습해보자. 여러가지가 있겠지만 다른 글에서처럼  https://www.npmjs.com/package/mqtt  을 사용하도록 한다. npm install mqtt --save 로 설치해도 되고 내 경우는 자주 사용하는 편이어서 npm install -g mqtt 로 전역설치를 했다. 호스트는 무료 제공하고 있는 test.mosquitto.o...

OS X 터미널에서 tmux 사용시 pane 크기 조절

http://superuser.com/a/660072  글 참조. OS X 에서 tmux 사용시 나눠놓은 pane 크기 조정할 때 원래는 ctrl+b, ctrl+↑←→↓ 로 사이즈를 조정하는데 기본 터미널 키 입력이 조금 문제가 있다. 키 매핑을 다시 하자 Preferences(cmd+,) > Profile >  변경하고자 하는 Theme 선택 > Keyboards 로 들어가서 \033[1;5A \033[1;5B \033[1;5C \033[1;5D 를 순서대로 ↑↓→←순으로 매핑이 되도록 하면 된다. +를 누르고 Key에 해당 화살표키와 Modifier에 ctrl 선택 한 후 <esc>, [, 1, ;, 5 까지 한키 한키 입력 후 A,B,C,D를 써준다. 잘못 입력했을 땐 당황하지 말고 Delete on character 버튼을 눌러 수정하도록 하자. 그리고 다시 tmux에서 ctrl+b, ctrl+↑←→↓로 사이즈를 조절해보자. 잘 된다.