하둡 완벽 가이드 5장 맵리듀스 프로그래밍 6장 맵리듀스 작동 방법

5장 맵리듀스 프로그래밍

Job Tuning
매퍼 개수: 매퍼가 얼마나 오랫동안 수행되고 있는가? 너무 작은 시간 동안 수행된다면 더 작은 수의 매퍼를 사용해본다.
리듀서 개수: 리듀서 개수는 거의 클러스터에 있는 리듀스 슬롯 개수보다 적어야 한다. 리듀서가 한 번만에 완료되고 리듀서 단계에서 클러스터 전체를 이용하도록 지원한다.
컴바이너: 사용자 잡이 컴바이너를 이용할 수 있는지 확인한다.
중간 데이터 압축
맞춤형 직렬화
셔플 꼬임

Apahce Oozie
연관되어 있는 잡의 워크플로우를 실행하는 시스템이다.
하둡 클러스터에서 수천 개의 워크플로우를 적합한 시간 내에 실행되도록 관리할 수 있다.
workflow engine: 다른 종류의 하둡 잡으로 구성된 워크플로우를 저장하고 실행한다.
coordinator engine: 미리 정의되어 있는 스케쥴과 데이터 가용성을 기반으로 워크플로우 잡을 실행한다.



6장 맵리듀스 작동 방법

맵리듀스1
클라이언트: 맵리듀스 작업을 제출한다.
잡트래커: 잡 수행을 상호조정한다.
태스크트래커: 해당 잡에 대해 분할된 태스크를 수행한다.
분산파일시스템: 다른 단게 간에 잡 파일을 공유하기 위해 사용된다.

잡 설정 태스크: 태스크트래커가 맵 태스크 실행 전 잡 설정을 위해 실행
잡 청소 태스크: 리듀스 태스크 실행 전 잡 청소를 위해 실행


맵리듀스2(얀)
병목현상을 해결하기 위해 설계됐다.
잡트래커의 책임을 여러 개의 책임자에게 분리해서 나눠준다.
리소스매니저: 클러스터 전반에 걸쳐 리소스 이용을 관리한다.
애플리케이션마스터: 클러스터에서 실행 중인 애플리케이션의 생명주기를 관리한다.
얀은 맵리듀스보다 더 일반적이다.
동일 클러스터에서 여러 다른 얀 애플리케이션이 함께 실행될 수 있다.







댓글

이 블로그의 인기 게시물

논문 정리 - MapReduce: Simplified Data Processing on Large Clusters

논문 정리 - The Google File System

kazoo: Using zookeeper api with python