오픈소스 프레임워크 정리(Zeppelin, Hue, Kibana)
Zeppelin
특징
스파크를 통한 데이터 분석의 불편함을 웹 기반의 노트북을 통해서 해결하기 위한 애플리케이션이다.
웹에서 다양한 언어를 섞어가며 분석 코드를 짤 수 있고 이 결과를 바로 그래프로 시각화해서 볼 수 있다.
웹소켓을 활용하여 같은 노트북을 여러 사람이 동시에 편집할 수 있는 협업 기능을 제공한다.
Spark, SparkSQL의 결과를 바로 차트로 그릴 수 있다.
자체적으로 스케줄 기능이 내장되어 있다.
HTML을 표현하는 게 가능하므로 테이블에 이미지를 표시하고나 링크를 넣거나 하는 등의 동작이 가능하다.
구조
장점
아파치 스파크와 궁합이 잘 맞다.
스파크의 성능 덕분에 대부분 코드가 즉시 실행되므로 interactive한 레포트를 작성할 수 있다.
Tadpole이나 airpal이라는 솔루션들도 SQL을 이용하여 실무자가 직접 쿼리를 만들거나 실행하는 GUI 도구이지만 이들에 비해 갖는 장점은 특정 사용자가 변경하거나 쿼리를 실행시키면 그에 대한 반응이 다른 사용자의 브라우저에도 자동 반영되기 때문이다.
단점
사용사례
<http://zeppelin.apache.org>
Hue
특징
Hadoop User Experience의 약자로서 하둡 클러스터와 함께 사용되는 웹 기반 사용자 인터페이스이다.
데이터를 탐색, 쿼리 및 시각화를 하기 위한 analytic workbench이다.
하둡 에코시스템을 웹 인터페이스로 접근할 수 있다.
다른 하둡 에코시스템과 함께 그룹화되어 하이브 작업 및 스파크 잡 등을 수행할 수 있다.
Hue에 저장한 워크플로우, 쿼리, 스크립트 파일을 볼 수 있다.
HDFS에 저장된 파일을 볼 수 있다.
S3 버킷에 저장된 파일을 볼 수 있다.
하이브 웨어하우스에 저장된 테이블을 볼 수 있다.
실행한 우지의 잡 상태 로그를 볼 수 있다.
하이브 쿼리, spark-shell과 같은 interactive한 구문, 우지 워크플로우를 통한 jar와 Distcp와 .sh파일과 MapReduce 애플리케이션을 실행할 수 있다.
우지 워크플로우를 생성할 수 있다.
구조
장점
단점
사용사례
Kibana
ElasticSearch와 함께 작동하도록 설계된 오픈 소스 분석 및 시각화 플랫폼이다.
엘라스틱서치를 위한 공식 인터페이스로서 엘라스틱서치의 사용자가 키바나를 통해서 효율적인 데이터 관리를 할 수 있다.
데이터 탐색, 시각화, 모니터링, 관리를 할 수 있다.
로그와 같이 누적되는 데이터를 실시간을 분석할 때 ELK(ElasticSearch, Logstash, Kibana) Stack을 사용한다.
Elastic Search의 결과를 보여줄 수 있는 오픈소스 데이터 시각화 플랫폼이다.
Canvas를 통해서 로그 분석, 인프라 모니터링, APM, 보안 운영, 비즈니스 분석 등을 할 수 있다.
기능 목록: https://www.elastic.co/kr/kibana/features
파일을 추적하거나 웹 사이트의 가동 시간을 추적하는 등의 모니터링을 제공한다.
Discover: 데이터를 한 눈에 확인한다.
Visualize: 수집된 결과를 시각화한다.
Dashboard: 시각화한 객체를 모아 본다.
Setting: Index 등록 및 환경 설정을 한다.
benefits:
대량의 로그 데이터를 interactive하게 탐색할 수 있는 직관적인 차트나 리포트를 제공한다.
쉽게 대시보드를 설정해서 다른 이들과 공유할 수 있다.
<https://www.elastic.co/kr/kibana>
특징
스파크를 통한 데이터 분석의 불편함을 웹 기반의 노트북을 통해서 해결하기 위한 애플리케이션이다.
웹에서 다양한 언어를 섞어가며 분석 코드를 짤 수 있고 이 결과를 바로 그래프로 시각화해서 볼 수 있다.
웹소켓을 활용하여 같은 노트북을 여러 사람이 동시에 편집할 수 있는 협업 기능을 제공한다.
Spark, SparkSQL의 결과를 바로 차트로 그릴 수 있다.
자체적으로 스케줄 기능이 내장되어 있다.
HTML을 표현하는 게 가능하므로 테이블에 이미지를 표시하고나 링크를 넣거나 하는 등의 동작이 가능하다.
구조
장점
아파치 스파크와 궁합이 잘 맞다.
스파크의 성능 덕분에 대부분 코드가 즉시 실행되므로 interactive한 레포트를 작성할 수 있다.
Tadpole이나 airpal이라는 솔루션들도 SQL을 이용하여 실무자가 직접 쿼리를 만들거나 실행하는 GUI 도구이지만 이들에 비해 갖는 장점은 특정 사용자가 변경하거나 쿼리를 실행시키면 그에 대한 반응이 다른 사용자의 브라우저에도 자동 반영되기 때문이다.
단점
사용사례
<http://zeppelin.apache.org>
Hue
특징
Hadoop User Experience의 약자로서 하둡 클러스터와 함께 사용되는 웹 기반 사용자 인터페이스이다.
데이터를 탐색, 쿼리 및 시각화를 하기 위한 analytic workbench이다.
하둡 에코시스템을 웹 인터페이스로 접근할 수 있다.
다른 하둡 에코시스템과 함께 그룹화되어 하이브 작업 및 스파크 잡 등을 수행할 수 있다.
Hue에 저장한 워크플로우, 쿼리, 스크립트 파일을 볼 수 있다.
HDFS에 저장된 파일을 볼 수 있다.
S3 버킷에 저장된 파일을 볼 수 있다.
하이브 웨어하우스에 저장된 테이블을 볼 수 있다.
실행한 우지의 잡 상태 로그를 볼 수 있다.
하이브 쿼리, spark-shell과 같은 interactive한 구문, 우지 워크플로우를 통한 jar와 Distcp와 .sh파일과 MapReduce 애플리케이션을 실행할 수 있다.
우지 워크플로우를 생성할 수 있다.
구조
장점
단점
사용사례
Kibana
ElasticSearch와 함께 작동하도록 설계된 오픈 소스 분석 및 시각화 플랫폼이다.
엘라스틱서치를 위한 공식 인터페이스로서 엘라스틱서치의 사용자가 키바나를 통해서 효율적인 데이터 관리를 할 수 있다.
데이터 탐색, 시각화, 모니터링, 관리를 할 수 있다.
로그와 같이 누적되는 데이터를 실시간을 분석할 때 ELK(ElasticSearch, Logstash, Kibana) Stack을 사용한다.
Elastic Search의 결과를 보여줄 수 있는 오픈소스 데이터 시각화 플랫폼이다.
Canvas를 통해서 로그 분석, 인프라 모니터링, APM, 보안 운영, 비즈니스 분석 등을 할 수 있다.
기능 목록: https://www.elastic.co/kr/kibana/features
파일을 추적하거나 웹 사이트의 가동 시간을 추적하는 등의 모니터링을 제공한다.
Discover: 데이터를 한 눈에 확인한다.
Visualize: 수집된 결과를 시각화한다.
Dashboard: 시각화한 객체를 모아 본다.
Setting: Index 등록 및 환경 설정을 한다.
benefits:
대량의 로그 데이터를 interactive하게 탐색할 수 있는 직관적인 차트나 리포트를 제공한다.
쉽게 대시보드를 설정해서 다른 이들과 공유할 수 있다.
<https://www.elastic.co/kr/kibana>
댓글
댓글 쓰기