지난 달에 열심히 밤을 새 가면서 만들었는데, 사내에 간단히 발표하고 버리기에는 좀 아까워서.. 회사에 관련된 내용만 지우고 공유! nutch 최신 버전 (1.3)과 관련해서 한글로 된 자료가 별로 없는데, 관심이 있으신 분은 참고하시라~~ 대략적인 내용 nutch의 구조 nutch의 주요 알고리즘 generate, fetch, parse, index nutch의 주요 data structure CrawlDB, LinkDB, CrawlDatum, Parse Data scoring 알고리즘 nutch의 장단점 위 내용 외에도, 이 자료를 보면, 분산 환경에서 crawler 동작 Score가 높은 순으로 문서 방문시키기 어떤 문서의 방문 순서(Score)를 높일 것인가? Politness (웹 서버에 방문 ..