논문 리뷰:Big Data Analytics Technologies and Platforms
Big Data Technologies 오류에 대한 대처 능력, 확장성, 탄력성, 분산 구조, 형식에 포괄적인 저장 공간, 큰 양의 데이터 처리가 필요하다(fault tolerance, scalability, elasticity, distributed architecture, generic storage, processing of large volumes of data). Big Data Technologies Introduction Apache Hadoop/YARN 많은 호스트 서버들에서 연산 프로세스를 쪼개서 할 수 있게 하는 open-source computation framework이다. MapReduce라는 execution engine과 HDFS라는 파일 시스템이라는 두 주요 구성이 있다. 많은 양의 structured 또는 unstructured 데이터를 처리하는 데에 있어 높은 유연성, 확장성, 낮은 코스트, 그리고 reliability를 제공한다. 데이터, 리소스, 태스크의 로드를 균형있게 하는 job schedule도 제공한다. Hadoop이 YARN(Yet Another Resource Negotiator)로 발전됐다. YARN은 프로그래밍 모델을 리소스 관리로부터 분리하고 스케쥴링 function들을 각 애플리케이션에 위임했다. Apache Spark 분산 데이터 처리를 위한 unified engine이다. MapReduce와 비슷한 프로그래밍 모델을 갖고 있지만 RDD(Resilient Distributed Datasets)라는 data-sharing abstraction으로 확장을 했다. SQL, streaming, 머신러닝, 그래프 프로세싱 등 각각의 엔진이 필요했지만 RDD로의 확장을 통해서 넓은 범위의 프로세싱 workload를 capture할 수 있게 됐다. In-memory 연산을 통해서 데이터가 메모리에 캐싱되게 하고, 따라서 반복적인 작업에서 생겼던 YARN의...