'inputsplit' 태그의 글 목록

inputsplit (1)

하둡에서 InputSplit과 HDFS 블록 사이의 관계

xlos
개발관련팁/Hadoop
2011.08.08

예를 들어 hadoop의 TextInputFormat 을 보자. 이 포맷은 하둡의 default input format인데, 파일에서 text들을 라인 단위로 읽어서 map task에게 제공해주는 역할을 한다. (참고로 key는 파일 내에서 각 라인의 시작 지점까지의 바이트 오프셋 값이다.) 여기서 당연히 한 가지 의문이 생기는데, 기본적으로 InputSplit은 HDFS의 블록으로 쪼개진다. (특별히 따로 InputSplit을 정의하지 않았다면) 그럼 HDFS block boundary가 TextInputFormat의 line boundary와 정확히 일치하지 않을 텐데, hadoop에서는 이를 어떻게 처리하고 있을까? Hadoop: The Definite Guide 책을 보면, 아래와 같은 그림이 나..

1

Sidebar - Right

블로그 정보

xlos

블로그인척 하는 일기장

Follow Me

공지사항

검색

달력

보관함

통계

전체 :
오늘 :
어제 :

Copyright © 채현님의 블로그 All Rights Reserved

Designed by JB FACTORY

티스토리툴바