오픈소스 crawler nutch 소개 자료 공유

지난 달에 열심히 밤을 새 가면서 만들었는데, 사내에 간단히 발표하고 버리기에는 좀 아까워서.. 회사에 관련된 내용만 지우고 공유!

nutch 최신 버전 (1.3)과 관련해서 한글로 된 자료가 별로 없는데, 관심이 있으신 분은 참고하시라~~

대략적인 내용

  • nutch의 구조
  • nutch의 주요 알고리즘
    • generate, fetch, parse, index
  • nutch의 주요 data structure
    • CrawlDB, LinkDB, CrawlDatum, Parse Data
  • scoring 알고리즘
  • nutch의 장단점

위 내용 외에도, 이 자료를 보면,

  • 분산 환경에서 crawler 동작
  • Score가 높은 순으로 문서 방문시키기
  • 어떤 문서의 방문 순서(Score)를 높일 것인가?
  • Politness (웹 서버에 방문 횟수 조절)를 지키며 방문하기

등을 알 수 있음.

발표자료 다운로드

댓글

Designed by JB FACTORY