오픈소스 crawler nutch 소개 자료 공유

오픈소스 crawler nutch 소개 자료 공유

xlos
유용한정보
2011. 8. 9.

지난 달에 열심히 밤을 새 가면서 만들었는데, 사내에 간단히 발표하고 버리기에는 좀 아까워서.. 회사에 관련된 내용만 지우고 공유!

nutch 최신 버전 (1.3)과 관련해서 한글로 된 자료가 별로 없는데, 관심이 있으신 분은 참고하시라~~

대략적인 내용

nutch의 구조
nutch의 주요 알고리즘

generate, fetch, parse, index

nutch의 주요 data structure

CrawlDB, LinkDB, CrawlDatum, Parse Data

scoring 알고리즘
nutch의 장단점

위 내용 외에도, 이 자료를 보면,

분산 환경에서 crawler 동작
Score가 높은 순으로 문서 방문시키기
어떤 문서의 방문 순서(Score)를 높일 것인가?
Politness (웹 서버에 방문 횟수 조절)를 지키며 방문하기

등을 알 수 있음.

발표자료 다운로드

Sidebar - Right

블로그 정보

xlos

블로그인척 하는 일기장

Follow Me

공지사항

검색

달력

보관함

통계

전체 :
오늘 :
어제 :

Copyright © 채현님의 블로그 All Rights Reserved

Designed by JB FACTORY

티스토리툴바