Hadoop
HDFS Hadoop Distributed File System 데이터 저장을 위한 것. NameNode(master) DataNode(slave)가 있다. 데이터노드는 여러개 있다. 데이터를 여러 블록으로 나눠서 저장한다. 기본값은 128메가인데 바꿀 수 있다. 반응속도보다는 시간당 처리량에 최적화 돼있다. 한번 쓰고 여러번 읽는 모델에 적합하다. 즉, write가 한번 있으면 수정이 없는 모델에 적합하다. 계산 할 때 자료가 워낙 크니까 자료를 옮기기 보다는 계산 작업을 자료 쪽으로 옮긴다. 데이터노드에서 직접 알고리즘을 처리하는 건가. 이걸 데이터 지역성이라 한다. 네임노드에 저장되는 메타데이터는 네임스페이스와 블록 정보가 담겨있는 Fsimage파일과, 파일의 생성, 삭제에 대한 트랜잭션 로그, 메모리에 저장하다가 주기적으로 생성되는 Edits파일이 있다. 네임노드가 구동되고 나면 Edits파일이 빠른 속도로 주기적으로 생성된다. 이 때문에 디스크 부족이 발생하고 재구동 되는 시간도 느려진다. 따라서 세컨더리 네임노드가 Fsimage와 Edits파일을 주기적으로 머지해서 Edits파일을 삭제하기 때문에 디스크 부족 문제를 해결한다. Yarn Yet Another Resource Negotiator Cluster resource management 노드의 뭉텅이를 관리한다. Resource Manager(master) NodeManager(slave)가 있다. 하둡2.0부터 제공되는 리소스 관리 플랫폼으로 MapReduce의 단점을 보완한다. 하둡1.0에서는 MapReduce의 JobTracker가 두 가지 기능을 했는데 하나는 클러스터 전체의 리소스 관리이고 다른 하나는 잡 스케쥴링 및 모니터링이다. TaskTracker는 slave node에서 map reduce 작업을 수행했다. YARN(하둡2.0)에서는 JobTracker의 기능은 ResourceManager, Application Master의 두 가지 프로세...
댓글
댓글 쓰기