SEARCH
TOOLBOX
LANGUAGES
Hadoop

Hadoop

From Chaehyun

Revision as of 14:35, 25 May 2011 by Xlos (Talk | contribs)
Jump to: navigation, search

Contents


cygwin 에서 native library 사용하기

  • cygwin 에서는 기본적으로 hadoop native library가 지원되지 않기 때문에 압축 등을 사용할 수 없음

외부 jar 사용하기

  • local 로 돌릴 때 문제가 발생하는 듯함. local로 돌릴 때는 classpath에도 추가하고, libjars에도 추가할 것. delimiter 주의
  • 먼저 export HADOOP_CLASSPATH=a.jar:b.jar
    • HADOOP_CLASSPATH tends to be used to add to bin/hadoop's classpath. Because of the way the comment is written, administrator's who customize hadoop-env.sh often inadvertently disable user's abilities to use it, by not including the present value of the variable.
  • 그리고 하둡을 실행할 때, -libjars a.jar,b.jar 옵션 추가
    • Specify comma separated jar files to include in the classpath. Applies only to job.
  • classpath에 추가할 때는 delimiter가 : 이고, libjars에서는 , 임에 주의할 것

combiner에 대한 상식

  • combiner의 input은 항상 mapper에서 들어오는 것은 아님.
  • combiner의 output이 combiner의 input으로 들어올 수도 있음

FileSystemCounters의 의미

counter Map Reduce
FILE_BYTES_READ  ? 대부분 shuffle 과정에서 읽은 크기 인 듯? FILE_BYTES_WRITTEN과 크기가 동일함
FILE_BYTES_WRITTEN
HDFS_BYTES_READ hdfs 에서 읽은 크기. Map input bytes 보다 조금 더 크다 대부분 0
HDFS_BYTES_WRITTEN 대부분 0. reducer task가 없는 경우, map task의 결과가 바로 HDFS에 기록 되고, Map output bytes와 일치한다 reducer의 결과는 최종적으로 hdfs에 저장됨. hdfs에 저장된 최종 reducer 결과의 크기
Retrieved from "http://chaehyun.kr/w/Hadoop"