오픈소스 crawler nutch 소개 자료 공유
- 유용한정보
- 2011. 8. 9.
지난 달에 열심히 밤을 새 가면서 만들었는데, 사내에 간단히 발표하고 버리기에는 좀 아까워서.. 회사에 관련된 내용만 지우고 공유!
nutch 최신 버전 (1.3)과 관련해서 한글로 된 자료가 별로 없는데, 관심이 있으신 분은 참고하시라~~
대략적인 내용
- nutch의 구조
- nutch의 주요 알고리즘
- generate, fetch, parse, index
- nutch의 주요 data structure
- CrawlDB, LinkDB, CrawlDatum, Parse Data
- scoring 알고리즘
- nutch의 장단점
위 내용 외에도, 이 자료를 보면,
- 분산 환경에서 crawler 동작
- Score가 높은 순으로 문서 방문시키기
- 어떤 문서의 방문 순서(Score)를 높일 것인가?
- Politness (웹 서버에 방문 횟수 조절)를 지키며 방문하기
등을 알 수 있음.