오픈소스 프레임워크 정리(Presto, Airflow, Slider, OpenTSDB)
Presto 빅데이터 분석 도구로, 분산된 SQL 쿼리 엔진이다. 테라, 페타 바이트 단위의 데이터를 분산 쿼리를 사용하여 분석할 수 있는 툴이다. Hive나 Pig는 쿼리가 맵리듀스 잡으로 실행되는 반면 Presto는 쿼리 실행 엔진이 구현되어 있어서 단계별 결과를 디스크에 쓰지 않고 메모리에서 메모리로 데이터를 전달할 수 있다. Coordinator(master)와 Worker(slave)가 있다. Coordinator: Client로부터 요청을 받는다. SQL 구문을 parsing한다. 쿼리를 실행할 worker 노드를 조정하고 노드의 활동을 트래킹한다. Worker: Coordinator에게서 받은 태스크를 수행하고 데이터를 처리한다. 수행 결과는 바로 worker에서 client로 전달한다. 프레스토에서 connector는 데이터베이스에서의 driver와 같은 역할을 한다. 즉, 데이터 소스에서 데이터를 읽어올 수 있도록 이어주는 역할을 한다. 다양한 저장소에서 저장된 데이터를 SQL을 이용해서 조회할 수 있다. 프레스토 쿼리에서는 하나 이상의 catalog를 사용할 수 있다. 즉, 하나의 쿼리에서 여러 개의 데이터 소스를 사용할 수 있다. 프레스토 워커 프로세스가 시작하면 Coordinator의 discovery server에 등록된다. discovery server에 등록돼야 coordinator가 태스크 실행에 워커를 배정할 수 있다. 클라이언트는 HTTP로 쿼리를 coordinator에 보낸다. Coordinator는 connector plugin에 스키마 데이터를 요청한 뒤 쿼리 플랜을 작성한다. Coordinator에서 워커로 수행해야 할 태스크를 전달한다. 워커는 connector plugin을 통해서 데이터 소스로부터 데이터를 읽어온다. 워커는 메모리에서 태스크를 수행한다. 실행 결과를 바로 클라이언트에게 전달한다. < https://docs.ncloud.com/ko/hadoop/chadoop...