기본 콘텐츠로 건너뛰기

node.js 로 만드는 원격 갈무리 도구

jsdom 이 역시 최고.
검진 기관명 목록을 통째로 뽑기 위해 node.js 로 짜보았다.
한글 문제는 iconv 를 설치해서 해결. euc-kr > utf-8으로 변환함.
jsdom 과 iconv 가 설치하는데 까칠거려서 애좀 먹었음.
http://pastie.org/4078210
결과물은 엑셀에서 뽑기 좋게
993 광양사랑치과의원 광양사랑치과의원 전라남도 광양시 공영로 73, 3층 (중동) (☎ 061-795-2879) 내원 출장 994 광양시보건소 광양시보건소 전남 광양시 광양읍 칠성리70 (☎ 061-797-4008) 내원 출장 995 광양웰치과의원 광양웰치과의원 전라남도 광양시 불로로 87, 3층 (중동) (☎ 061-793-7588) 내원 출장 996 광양의원 광양의원 제주특별자치도 제주시 서광로 302, 4층 ... (☎ 064-723-8275) 내원 출장 997 광장수진산부인과의원 광장수진산부인과의원 경기도 부천시 원미구 부일로 202-13, ... (☎ 032-328-9686) 내원 출장 998 광제산부인과의원 광제산부인과의원 충청남도 천안시 서북구 서부18길 23, (... (☎ 041-575-3200) 내원 출장 999 광주21세기병원 광주21세기병원 광주광역시 광산구 임방울대로 164,(운남동... (☎ 062-953-7000) 내원 출장 1000 광주굿모닝병원 광주굿모닝병원 광주광역시 북구 북문대로 182, (운암동) (☎ 062-250-1000) 내원 출장

이런식으로 대략 나옴.
vi에서 복사하기 좋게 41라인을 안넘은게 자랑. 발소스는 안자랑.
cluster 를 써서 멀티코어 돌렸으면 좋았을 것을.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
var Iconv = require('iconv').Iconv;
var iconv = new Iconv('EUC-KR', 'UTF-8//TRANSLIT//IGNORE');
var jsdom = require('jsdom');
var maxidx=1695; // 1695;
var fd='\t';
var getHTML=function(idx) {
jsdom.env({
  html: 'http://hi.nhic.or.kr/ggpr001_r03.do?pageIndex='+idx,
  encoding: 'binary',
  scripts: [
    'http://code.jquery.com/jquery-1.5.min.js'
  ],
  done: function(errors, window) {
    var $ = window.$;
    var rst = '';
    $(".default_list tr").each(function(k,v) {
      if (k>1) {
        var line=$("td",v).map(function(kk,vv) {
          return (k%2===0 && kk===1) ? $(vv).attr('title')+fd+
                  $(vv).html().replace(/<br[ /]*>/g,fd) : $(vv).text();
        });
        for (var i=0; i<line.length; i++) {
          rst += line[i].replace(/^\s*|\s*$/g, '')+fd;
        }
        if (k%2===1) {
         var buf = new Buffer(rst.length);
         buf.write(rst, 0, rst.length, 'binary');
         console.log(iconv.convert(buf).toString());
         rst = '';
        }
      }
    });
    if (idx<maxidx)
      getHTML(idx+1);
  }
});
}
getHTML(1);

댓글

  1. 현재 node.js로만 서버를 구성해놨는데 외부에서 post요청이 들어오는데 폼에 담긴 값들이 euc-kr로 인코딩된 것이라서. 변환이 필요합니다. 어떻게 사용가능할까요?

    var iconv = require('iconv-lite');
    var str = iconv.decode(receviedData, 'utf-8');
    이렇게 해보았는데.
    str : "[object Object]"
    이렇게 콘솔에 찍히네요. 뭐가 문제일까요.

    답글삭제
  2. 계속 해보고 있는데 iconv모듈 설치에서 너무 많이 막히네요. python깔라고 나와서 깔고나니 vcbuild필요하다고 하고 그래서 .net framework sdk 깔고나니까 이젠 이젠 이해할 수 없는 에러가 뜨네요. 주말안에 해결해야 하는 부분인데 도움 주실수 있으실까요.ㅠㅠ
    appleguy@naver.com나 010-962공-팔003 입니다. 염치없지만 여쭤볼곳을 찾기가 쉽지 않네요.

    답글삭제
  3. 윈도우에선 안해봐서 잘 모르겠습니다.
    의존성 관련해서 문제가 너무 많아서 우분투 서버를 사용하고 있습니다.

    답글삭제

댓글 쓰기

이 블로그의 인기 게시물

cURL로 cookie를 다루는 법

http://stackoverflow.com/questions/22252226/passport-local-strategy-and-curl 레거시 소스를 보다보면 인증 관련해서 cookie를 사용하는 경우가 있는데 가령 REST 서버인 경우 curl -H "Content-Type: application/json" -X POST -d '{"email": "aaa@bbb.com", "pw": "cccc"}' "http://localhost/login" 이렇게 로그인이 성공이 했더라도 curl -H "Content-Type: application/json" -X GET -d '' "http://localhost/accounts/" 이런 식으로 했을 때 쿠키를 사용한다면 당연히 인증 오류가 날 것이다. curl의 --cookie-jar 와 --cookie 옵션을 사용해서 cookie를 저장하고 꺼내쓰자. 각각 옵션 뒤엔 저장하고 꺼내쓸 파일이름을 임의로 지정하면 된다. 위의 과정을 다시 수정해서 적용하면 curl -H --cookie-jar jarfile "Content-Type: application/json" -X POST -d '{"email": "aaa@bbb.com", "pw": "cccc"}' "http://localhost/login" curl -H --cookie jarfile "Content-Type: application/json" -X GET -d '' "http://localhost/accounts/" 이렇게 사용하면 ...

MQTT 접속해제 - LWT(Last will and testament)

통신에서 중요하지만 구현이 까다로운 문제로 "상대방이 예상치 못한 상황으로 인하여 접속이 끊어졌을때"의 처리가 있다. 이것이 까다로운 이유는 상대방이 의도적으로 접속을 종료한 경우는 접속 종료 직전에 자신의 종료 여부를 알리고 나갈 수 있지만 프로그램 오류/네트웍 연결 강제 종료와 같은 의도치 않은 상황에선 자신의 종료를 알릴 수 있는 방법 자체가 없기 때문이다. 그래서 전통적 방식으로는 자신의 생존 여부를 계속 ping을 통해 서버가 물어보고 timeout 시간안에 pong이 안올 경우 서버에서 접속 종료를 인식하는 번거로운 방식을 취하는데 MQTT의 경우 subscribe 시점에서 자신이 접속 종료가 되었을 때 특정 topic으로 지정한 메시지를 보내도록 미리 설정할 수 있다. 이를 LWT(Last will and testament) 라고 한다. 선언을 먼저하고 브로커가 처리하게 하는 방식인 것이다. Last Will And Testament 라는 말 자체도 흥미롭다. 법률용어인데  http://www.investopedia.com/terms/l/last-will-and-testament.asp 대략 내가 죽으면 뒷산 xx평은 작은 아들에게 물려주고 어쩌고 하는 상속 문서 같은 내용이다. 즉, 내가 죽었을(연결이 끊어졌을) 때에 변호사(MQTT Broker - ex. mosquitto/mosca/rabbitMQ등)로 하여금 나의 유언(메시지)를 상속자(해당 토픽에 가입한 subscriber)에게 전달한다라는 의미가 된다. MQTT Client 가 있다면 한번 실습해보자. 여러가지가 있겠지만 다른 글에서처럼  https://www.npmjs.com/package/mqtt  을 사용하도록 한다. npm install mqtt --save 로 설치해도 되고 내 경우는 자주 사용하는 편이어서 npm install -g mqtt 로 전역설치를 했다. 호스트는 무료 제공하고 있는 test.mosquitto.o...

느려터진 안드로이드 에뮬은 버리고 VM을 쓰자.

iOS개발 환경이 안드로이드보다 우월점은 여러가지가 있겠지만 개인적으로 가장 큰부분이라고 생각하는 점이 iOS Simulator 의 넘사벽 속도다. 사실 iOS 의 경우 Emulator 가 아니라 Simulator 라는 훼이크를 써서 그런건데. 하드웨어+소프트웨어를 같이 하는 회사만이 쓸 수 있는 필살기라 볼 수 있다. 반면 안드로이드의 경우 ARM 에뮬레이터를 사용하는데 이게 참 못만들었다. 플스에뮬이나 GBA에뮬 반정도만 만들어도 써줄텐데 아직 갈길이 멀다. 그래서 구시렁 거리면서 하드웨어를 연결해서 테스트를 하고 있는데 역시 USB연결하는 건 불편하고 apk 를 전송하는 과정도 그다지 빠르지 않아서 개발 생산성이 월등히 나아지지는 않는다. 루팅을 하면 wifi 를 통해 apk 를 인스톨 할 수 있다고 해서 몇 가지를 해보았으나 잘 모르겠지만 인스톨까진 잘 되었는데 디버깅 모드로 실행이 되지 않아 그만두었다. 게다가 전송속도도 USB보다 wifi가 느리고 맘에 들지 않더라. 그러던중 stackoverflow.com(늘 신세지고 있습니다) 에서 "VM으로 안드로이드를 띄워서 adb connect 하면 좋아!" 라는 글에 눈이 번쩍. 시행착오를 몇번 했지만 의외로 간단하더라. 1. VMWare건 VirtualBox건 상관없다. VM호스트를 준비하자. 2. http://www.android-x86.org/download 로 가서  Deprecated x86 2.2 generic  을 받자. Q) 왜 Deprecated 인 2.2 generic 을 받나요. Deprecated는 쓰면 안되는 거 아님? A) http://mariuz.android-dev.ro/vm.iso.7z 도 있다고 한다. http://www.android-x86.org/download 에 있는 요즘 것들은 죄다 안된다. 3. 죄다 일단 Default 설정에 yes yes 하고 설치한다. 한글 문서가 필요한 분은 ...