文章详情|Zeppelin简介

Zeppelin简介 所属分类 zeppelin 浏览量 1492

基于网页的notebook  
交互式数据分析 提供数据可视化框架
开源可视化交互式数据分析系统

Web-based notebook that enables data-driven, 
interactive data analytics and collaborative documents with SQL, Scala and more.


Interpreter
插件 允许使用指定的语言或数据处理器


每一个Interpreter 属于一个InterpreterGroup
同一个InterpreterGroup的Interpreters可以相互引用
例如SparkSqlInterpreter 可以引用 SparkInterpreter 以获取 SparkContext
他们属于同一个InterpreterGroup

已实现的Interpreter有 spark  python SparkSQL JDBC Markdown和shell等

Interpreter接口方法

Open         初始化  
Close        关闭释放资源 
Interpret    运行代码并返回结果 同步执行 
Cancel       可选 用于结束interpret方法
getPregress  获取interpret 百分比进度
completion   基于游标位置获取结束列表 



SparkInterpreter

Open方法 初始化SparkContext，SQLContext，ZeppelinContext
当前支持的模式
local[*] in local mode
spark://master:7077 in standalone cluster
yarn-client in Yarn client mode

Interpret方法  按行执行代码
调用spark 的 SparkILoop 逐行执行 ，类似 spark shell 

sparkInterpret 

close       停止SparkContext
cancel      直接调用SparkContext的cancel   sc.cancelJobGroup(getJobGroup(context)
getProgress 通过SparkContext获取所有stage的总的task和已经结束的task，结束的tasks除以总的task得到的比例就是进度



优缺点

优点
提供restful和webSocket两种接口
使用spark解释器，按照spark提供的接口编程即可
包含更多的解释器，扩展性好
提供多个数据可视化模块 

缺点
没有提供jar包的方式运行spark任务
只有同步的方式运行，客户端可能需要等待较长时间

spark 原理及特点

spark运行模式及集群角色

spark作业运行流程

大数据学习路线

学霸老师见多了学霸，发现学霸养成的真相

hadoop集群进程及作用