Hadoop
From Chaehyun
(Difference between revisions)
(→combiner에 대한 상식) |
|||
Line 18: | Line 18: | ||
= FileSystemCounters의 의미 = | = FileSystemCounters의 의미 = | ||
- | {| | + | {| border="1" |
| counter | | counter | ||
| Map | | Map | ||
Line 24: | Line 24: | ||
|- | |- | ||
| FILE_BYTES_READ | | FILE_BYTES_READ | ||
- | | | + | | ? |
- | | | + | | 대부분 shuffle 과정에서 읽은 크기 인 듯? FILE_BYTES_WRITTEN과 크기가 동일함 |
|- | |- | ||
|- | |- | ||
Line 34: | Line 34: | ||
|- | |- | ||
| HDFS_BYTES_READ | | HDFS_BYTES_READ | ||
- | | | + | | hdfs 에서 읽은 크기. Map input bytes 보다 조금 더 크다 |
- | | | + | | 대부분 0 |
|- | |- | ||
|- | |- | ||
| HDFS_BYTES_WRITTEN | | HDFS_BYTES_WRITTEN | ||
- | | | + | | 대부분 0. reduce가 없을 때는 값이 있음 |
- | | | + | | reducer의 결과는 최종적으로 hdfs에 저장됨. hdfs에 저장된 최종 reducer 결과의 크기 |
|} | |} |
Revision as of 14:33, 25 May 2011
Contents |
cygwin 에서 native library 사용하기
- cygwin 에서는 기본적으로 hadoop native library가 지원되지 않기 때문에 압축 등을 사용할 수 없음
외부 jar 사용하기
- local 로 돌릴 때 문제가 발생하는 듯함. local로 돌릴 때는 classpath에도 추가하고, libjars에도 추가할 것. delimiter 주의
- 먼저 export HADOOP_CLASSPATH=a.jar:b.jar
- HADOOP_CLASSPATH tends to be used to add to bin/hadoop's classpath. Because of the way the comment is written, administrator's who customize hadoop-env.sh often inadvertently disable user's abilities to use it, by not including the present value of the variable.
- 그리고 하둡을 실행할 때, -libjars a.jar,b.jar 옵션 추가
- Specify comma separated jar files to include in the classpath. Applies only to job.
- classpath에 추가할 때는 delimiter가 : 이고, libjars에서는 , 임에 주의할 것
combiner에 대한 상식
- combiner의 input은 항상 mapper에서 들어오는 것은 아님.
- combiner의 output이 combiner의 input으로 들어올 수도 있음
FileSystemCounters의 의미
counter | Map | Reduce |
FILE_BYTES_READ | ? | 대부분 shuffle 과정에서 읽은 크기 인 듯? FILE_BYTES_WRITTEN과 크기가 동일함 |
FILE_BYTES_WRITTEN | ||
HDFS_BYTES_READ | hdfs 에서 읽은 크기. Map input bytes 보다 조금 더 크다 | 대부분 0 |
HDFS_BYTES_WRITTEN | 대부분 0. reduce가 없을 때는 값이 있음 | reducer의 결과는 최종적으로 hdfs에 저장됨. hdfs에 저장된 최종 reducer 결과의 크기 |