지난 달에 열심히 밤을 새 가면서 만들었는데, 사내에 간단히 발표하고 버리기에는 좀 아까워서.. 회사에 관련된 내용만 지우고 공유!
nutch 최신 버전 (1.3)과 관련해서 한글로 된 자료가 별로 없는데, 관심이 있으신 분은 참고하시라~~
대략적인 내용
- nutch의 구조
- nutch의 주요 알고리즘
- generate, fetch, parse, index
- nutch의 주요 data structure
- CrawlDB, LinkDB, CrawlDatum, Parse Data
- scoring 알고리즘
- nutch의 장단점
위 내용 외에도, 이 자료를 보면,
- 분산 환경에서 crawler 동작
- Score가 높은 순으로 문서 방문시키기
- 어떤 문서의 방문 순서(Score)를 높일 것인가?
- Politness (웹 서버에 방문 횟수 조절)를 지키며 방문하기
등을 알 수 있음.
'유용한정보' 카테고리의 다른 글
| 버스카드 실시간 환승의 비밀 (0) | 2012/02/06 |
|---|---|
| 대중교통수단으로 알아보는 시간의 가치 (0) | 2012/01/18 |
| 오픈소스 crawler nutch 소개 자료 공유 (0) | 2011/08/09 |
| 아이폰에서도 무인코딩으로 고화질 동영상을 볼 수 있게 해주는 OPlayer (6) | 2010/10/22 |
| Tango Video Calls (탱고 비디오 콜) 사용하기 (4) | 2010/10/05 |
| rook.html 파일 다운받지 마세요. (8) | 2010/08/16 |


rss