하둡 완벽 가이드 9장 하둡 클러스터 설정 10장 하둡 관리
9장 하둡 클러스터 설정
데이터노드에 RAID를 사용할 필요가 없고, 네임노드에는 사용할만 하다.
RAID(Redundant Array of Independent Disks): 여러 개의 하드디스크에 일부 중복된 데이터를 나눠서 저장하는 기술이다.
하둡 제어 스크립트는 ssh를 사용하기 때문에 ssh 공개/개인 키를 사용하면 편하다.
hadoop-env.sh
하둡 환경변수
HADOOP_HEAPSIZE: 데몬 힙 사이즈. 태스크트래커는 자식 프로세서를 생성해서 jvm을 실행시키므로 이를 고려해서 heap size 조절
HADOO_LOG_DIR: 하둡 로그 저장 위치
HADOOP_SSH_OPTS: ssh 옵션
core-site.xml: hdfs, mapred 공통 설정
hdfs-site.xml: hdfs 설정
mapred-site.xml: mapred 설정
masters: 보조 네임노드 구동 컴퓨터 목록
slaves: 데이터노드, 태스크 트래커 구동 목록. 클러스터가 시작될 때만 사용되고 하둡 데몬은 참조하질 않는다.
hadoop-metric.properties: 매트릭스 제어
log4j.properties: 로그 설정
start-dfs.sh:
로컬 컴퓨터 상에서 네임노드 실행
slaves 파일에 열거된 각 컴퓨터 상에서 데이터 노드를 실행
masters 파일에 열거된 각 컴퓨터 상에서 보조 네임노드를 실행
start-mapred.sh:
로컬 컴퓨터 상에 잡트래커 실행
slaves파일에 열거된 각 컴퓨터에서 태스크 트래커 실행
KDC(커버로스 키 분배 센터)에서 인증받은 후 네임노드가 위임 토큰을 발급해서 이후 KDC에 접근하지 않고 접근이 가능하다.
dfs.block.access.token.enable을 true로 해줘야 되는 듯..?
heartbeat 속에 비밀키를 실어서 보내면 클라이언트는 네임노드에게 토큰을 발급받는다. 잡이 끝나면 위임 토큰을 무효화시킨다.
10장 하둡 관리
RPC(Remote Procedure Call)
네트워크에서 떨어져 있는 컴퓨터에서 코드를 실행하는 방식.
conf/hadoopmetrics.properties에 매트릭스가 설정된다.
카운터는 사용자를 위해 존재하고 매트릭스를 관리자를 위해 존재한다.
hadoop dfsadmin: 안전모드 관리, edits 초기화, 데이터노드의 집합 변경 등을 한다.
hadoop fsck: 이상 블록을 찾거나 고쳐준다.
데이터노드에 RAID를 사용할 필요가 없고, 네임노드에는 사용할만 하다.
RAID(Redundant Array of Independent Disks): 여러 개의 하드디스크에 일부 중복된 데이터를 나눠서 저장하는 기술이다.
하둡 제어 스크립트는 ssh를 사용하기 때문에 ssh 공개/개인 키를 사용하면 편하다.
hadoop-env.sh
하둡 환경변수
HADOOP_HEAPSIZE: 데몬 힙 사이즈. 태스크트래커는 자식 프로세서를 생성해서 jvm을 실행시키므로 이를 고려해서 heap size 조절
HADOO_LOG_DIR: 하둡 로그 저장 위치
HADOOP_SSH_OPTS: ssh 옵션
core-site.xml: hdfs, mapred 공통 설정
hdfs-site.xml: hdfs 설정
mapred-site.xml: mapred 설정
masters: 보조 네임노드 구동 컴퓨터 목록
slaves: 데이터노드, 태스크 트래커 구동 목록. 클러스터가 시작될 때만 사용되고 하둡 데몬은 참조하질 않는다.
hadoop-metric.properties: 매트릭스 제어
log4j.properties: 로그 설정
start-dfs.sh:
로컬 컴퓨터 상에서 네임노드 실행
slaves 파일에 열거된 각 컴퓨터 상에서 데이터 노드를 실행
masters 파일에 열거된 각 컴퓨터 상에서 보조 네임노드를 실행
start-mapred.sh:
로컬 컴퓨터 상에 잡트래커 실행
slaves파일에 열거된 각 컴퓨터에서 태스크 트래커 실행
KDC(커버로스 키 분배 센터)에서 인증받은 후 네임노드가 위임 토큰을 발급해서 이후 KDC에 접근하지 않고 접근이 가능하다.
dfs.block.access.token.enable을 true로 해줘야 되는 듯..?
heartbeat 속에 비밀키를 실어서 보내면 클라이언트는 네임노드에게 토큰을 발급받는다. 잡이 끝나면 위임 토큰을 무효화시킨다.
10장 하둡 관리
RPC(Remote Procedure Call)
네트워크에서 떨어져 있는 컴퓨터에서 코드를 실행하는 방식.
conf/hadoopmetrics.properties에 매트릭스가 설정된다.
카운터는 사용자를 위해 존재하고 매트릭스를 관리자를 위해 존재한다.
hadoop dfsadmin: 안전모드 관리, edits 초기화, 데이터노드의 집합 변경 등을 한다.
hadoop fsck: 이상 블록을 찾거나 고쳐준다.
댓글
댓글 쓰기