2012년 6월 13일 수요일

node.js 로 만드는 원격 갈무리 도구

jsdom 이 역시 최고.
검진 기관명 목록을 통째로 뽑기 위해 node.js 로 짜보았다.
한글 문제는 iconv 를 설치해서 해결. euc-kr > utf-8으로 변환함.
jsdom 과 iconv 가 설치하는데 까칠거려서 애좀 먹었음.
http://pastie.org/4078210
결과물은 엑셀에서 뽑기 좋게
993 광양사랑치과의원 광양사랑치과의원 전라남도 광양시 공영로 73, 3층 (중동) (☎ 061-795-2879) 내원 출장 994 광양시보건소 광양시보건소 전남 광양시 광양읍 칠성리70 (☎ 061-797-4008) 내원 출장 995 광양웰치과의원 광양웰치과의원 전라남도 광양시 불로로 87, 3층 (중동) (☎ 061-793-7588) 내원 출장 996 광양의원 광양의원 제주특별자치도 제주시 서광로 302, 4층 ... (☎ 064-723-8275) 내원 출장 997 광장수진산부인과의원 광장수진산부인과의원 경기도 부천시 원미구 부일로 202-13, ... (☎ 032-328-9686) 내원 출장 998 광제산부인과의원 광제산부인과의원 충청남도 천안시 서북구 서부18길 23, (... (☎ 041-575-3200) 내원 출장 999 광주21세기병원 광주21세기병원 광주광역시 광산구 임방울대로 164,(운남동... (☎ 062-953-7000) 내원 출장 1000 광주굿모닝병원 광주굿모닝병원 광주광역시 북구 북문대로 182, (운암동) (☎ 062-250-1000) 내원 출장

이런식으로 대략 나옴.
vi에서 복사하기 좋게 41라인을 안넘은게 자랑. 발소스는 안자랑.
cluster 를 써서 멀티코어 돌렸으면 좋았을 것을.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
var Iconv = require('iconv').Iconv;
var iconv = new Iconv('EUC-KR', 'UTF-8//TRANSLIT//IGNORE');
var jsdom = require('jsdom');
var maxidx=1695; // 1695;
var fd='\t';
var getHTML=function(idx) {
jsdom.env({
  html: 'http://hi.nhic.or.kr/ggpr001_r03.do?pageIndex='+idx,
  encoding: 'binary',
  scripts: [
    'http://code.jquery.com/jquery-1.5.min.js'
  ],
  done: function(errors, window) {
    var $ = window.$;
    var rst = '';
    $(".default_list tr").each(function(k,v) {
      if (k>1) {
        var line=$("td",v).map(function(kk,vv) {
          return (k%2===0 && kk===1) ? $(vv).attr('title')+fd+
                  $(vv).html().replace(/<br[ /]*>/g,fd) : $(vv).text();
        });
        for (var i=0; i<line.length; i++) {
          rst += line[i].replace(/^\s*|\s*$/g, '')+fd;
        }
        if (k%2===1) {
         var buf = new Buffer(rst.length);
         buf.write(rst, 0, rst.length, 'binary');
         console.log(iconv.convert(buf).toString());
         rst = '';
        }
      }
    });
    if (idx<maxidx)
      getHTML(idx+1);
  }
});
}
getHTML(1);