Practice makes perfect

[BIGDATA Platform] 빅데이터 분석 기술(분석, 시각화) - 제플린(Zeppelin) 본문

빅데이터/BIGDATA Platform

[BIGDATA Platform] 빅데이터 분석 기술(분석, 시각화) - 제플린(Zeppelin)

kerpect 2020. 6. 19. 00:53

제플린(Zeppelin) 란?

: 제플린은 Apache Spark을 기반으로 한 시각화 툴이며, UI에서 코딩도 할 수 있고 SQL도 날리면서 데이터를 시각화해서 보여주는 빅데이터 분석 및 시각화 툴입니다.

 

 

제플린(Zeppelin) 홈페이지 :  zeppelin.apache.org/

 

 

제플린(Zeppelin)의 등장 배경

: 대용량 데이터를 효과적으로 탐색 및 분석하기 위해서는 대용량 데이터셋을빠르게 파악하고 이해하기 위한 분석 및 시각화 툴 필요했습니다. 그래서 하둡의 저장소에 있는 데이터를 참조하여 데이터 분석이 가능하도록 스파크를 기반으로 하는 제플린이 탄생하였습니다.

- 국내 스타트업 기업인 NFLaps에서 2013년부터 주도하고 있는 오픈소스 프로젝트로, 2014년 12월 아파치 재단에 인큐베이팅됐고, 2016년 5월 아파치 최상위 프로젝트로 승격되었습니다.

 

 

 

제플린(Zeppelin)의 장점 '

 

- Notebook : 데이터 처리 , 데이터 검색 , 데이터 분석 , 데이터 시각화 및 협업

 

- 다중 언어 백엔드

 

- Apache Spark와 통합 : - 자동 SparkContext 및 SQLContext 삽입, 로컬 파일 시스템 또는 메이븐 저장소로부터의

  런타임 jar 의존성로드,  작업 취소 및 진행 상황 표시

 

- Visualization : Table, Line Chart, Pie Chart 등 다양한 형태로 시각화

  Spark의 좋은 성능 덕분에 대부분 코드가 즉시 실행되므로 interactive하게 데이터를 다룰 수 있음

  HTML을 표현 가능하므로, 테이블에 이미지를 표시하거나, link를 넣거나 하는 등의 동작이 가능

 

- 새로운 Workflow : 데이터 정제, 처리, 요약 데이터 시각화, 고급 분석까지 전부 Spark와 Zeppelin으로 해결

 

 

 

제플린(Zeppelin)의 NoteBook

Apache Zeppelin은 Spark를 통한 데이터 분석의 불편함을 Web기반의 Notebook을 통해서 해결해보고자 만들어진 어플리케이션입니다. Web기반 Notebook 스타일 환경이란 Web에 워드프로세서 처럼 아무거나 입력 가능한 하얀 화면이 뜨고 여기에 코드를 작성-실행-결과확인-코드수정을 반복하면서 원하는 결과를 만들어 낼수있는 작업환경을 말합니다.

 

 

 

 

제플린(Zeppelin) 아키텍처

 

NoteBook : 웹 상에서 제플린의 인터프리터 언어를 작성하고 명령을 실행 및 관리할 수 있는 UI

Visualization : 잍터프리터의 실행 결과를 곧바로 웹 상에서 다양한 시각화 도구로 분석해 볼 수 있는 기능

Zeppelin Server : NoteBook을 웹으로 제공하기 위한 웹 애플리케이션 서버로서 인터프리터 엔진 및 인터프리터 API 등을 지원

Zeppelin interpreter : 데이터 분석을 위한 다양한 인터프리터를 제공하며, 스파크, 하이브, JDBC, 셀 등이 있으며 필요 시 인터프리터를 추가 확장

 

* 인터프리터 : (interpreter, 문화어: 해석기)는 프로그래밍 언어의 소스 코드를 바로 실행하는 컴퓨터 프로그램 또는 환경을 말합니다.