首页

Spark 运行模式
local 本地模式  local 单线程 和 local-cluster 多线程
standalone 独立集群模式 ,使用自带的集群管理器 , 典型的 Mater/slave 模式
standalone-HA   独立集群高可用模式  ,基于zk 搭建高可用,避免 Master 单点故障
on yarn   运行在 yarn 集群之上,由 yarn 负责资源管理,Spark 负责任务调度和计算 ,计算资源按需伸缩,集群利用率高,共享底层存储,避免数据跨集群迁移
Flink 分布式快照 容错机制优点
低延迟 高吞吐量 与业务逻辑的隔离 错误恢复代价低
知识管理的核心就是在有限的信息容量里装入尽可能多的信息,其实就是输入信息的压缩与解压
Flink基于分布式快照与可部分重发的数据源实现容错
可自定义对整个Job进行快照的时间间隔,当任务失败时,将整个Job恢复到最近一次快照,并从数据源重发快照之后的数据
Flink的分布式快照实现借鉴了Chandy和Lamport在1985年发表的一篇关于分布式快照的论文 
按照用户自定义的分布式快照间隔时间,定时在所有数据源中插入一种特殊的快照标记消息,
这些快照标记消息和其他消息一样在DAG中流动,但是不会被用户定义的业务逻辑所处理,
每一个快照标记消息都将其所在的数据流分成两部分 本次快照数据和下次快照数据
与 SparkSQL 相比,Presto 是一个常驻的 MPP 架构的 SQL 查询引擎,
避免了 Spark Context 启动以及资源申请的开销,端到端延迟较低
无量化 无管理 先量化 后决策
presto 
Distributed SQL Query Engine for Big Data
可连接多个数据源,跨数据源连表查询
使用内存计算,减少与硬盘交互
西溪湿地三堤十景
三堤 福堤,绿堤,寿堤
十景 河渚听曲、曲水寻梅、龙舟胜会、莲滩鹭影、蒹葭泛月、
高庄宸迹、洪园余韵、渔庄烟雨、秋芦飞雪、火柿映波
虎年初五迎财神
祝大家财运亨通 万事大吉
找了家餐厅叫 mysql,结果服务员告诉我那是  明月三千里 的缩写

第一页 上一页 下一页 最后一页