所有段子,第 241 页

首页最新段子

Apache Hud
Hadoop Upserts Deletes Incrementals，是Uber在2016年开发的开源框架，用于管理分布式文件系统（如云存储，HDFS或任何其他Hadoop FileSystem兼容存储）上的大型文件集，实现了数据湖中原子性、一致性、隔离性和持久性（ACID）事务。 
Hudi的commit模型基于时间轴，该时间轴包含对表执行的所有操作，
Hudi提供以下功能
通过快速，可插拔的索引支持Upsert
具有回滚的原子发布，保存点
读写快照隔离
使用统计信息管理文件大小和布局
行和列数据的异步压缩
时间轴元数据以跟踪血统

与大数据相对应的应当是主数据。
主数据是某个业务对象的结构化数据属性，
广义的主数据也包括其属性值动态变化的过程数据。
主数据的3大特征是高价值、高共享、相对稳定。
主数据都是跨业务、跨系统、跨部门、跨技术的，是企业级信息资产。

rsync 主要用于备份和镜像 ，具有速度快、避免复制相同内容 ， 支持符号链接
rsync 和 scp 区别
用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更新
scp 是把所有文件都复制过去

节假日好好学习 弯道超车的好机会
7: 00-7: 30 赖床
7: 30-8: 00 洗漱吃饭
8: 00-8: 01 复习 Java 基础
8: 01-8: 02 学习并发相关知识
8: 02-8: 03 学习 JVM 相关知识
8: 03-8: 05 学习 Go 语言
8: 05-8: 07 学习分布式相关理论
8: 07-8: 09 看技术书籍
8: 09-8: 10 学习 Linux
8:10-12:10 刷一会儿微博 放松下
12:10-12:30 午饭时间
12:30-13:00 午休时间
13:00-13:05 学习消息中间件
13:05-13:06 刷 LeetCode
13:06-13: 10 看理财书籍
13:10-13: 15 阅读研报
13:15-13:16 看技术书籍
13:16-13:18 学习微服务相关理论
13:18-13:20 学习网关
13:20-13:21 学习分布式配置中心
13:21-18:20 看一会儿电视剧
18:20-18:50 晚饭时间
18:50-18:51 复习操作系统相关知识
18:51-18:52 复习计算网络相关知识
18:52-18:53 复习数据结构和算法相关知识
18:53-23:00 刷一会儿微博 放松下
23:00 睡觉

Kylin 是基于 Hadoop 的 MOLAP (Multi-dimensional OLAP) 技术，
核心技术是 OLAP Cube ，将预计算（通过 MapReduce 或 Spark 执行）多维 Cube 导入到 HBase ，实现亚秒级的查询响应 ，
最近的 Kylin4 开始使用 Spark + Parquet 来替换 HBase，进一步简化架构

ClickHouse 是基于 MPP 架构的分布式 ROLAP （Relational OLAP）分析引擎，
各节点职责对等 （shared nothing） ，各自负责一部分数据的处理，
利用 向量化执行引擎，日志合并树、稀疏索引 与 CPU 的SIMD（单指令多数据 ，Single Instruction Multiple Data）等特性
充分发挥硬件优势，实现高性能计算

主要消费，是指日常生活所必须的消费品，比如肉制品、乳制品、调味品、饮料等，也包括白酒。
主要消费基本上是与人的饮食需求相关，是一种稳定的刚需。
而可选消费，是日常生活中非必须的消费，是可以有选择性的消费，比如家电、汽车和旅游等。
当人们的经济情况不好时，就很有可能会延迟甚至取消这部分消费

找了家餐厅叫 mysql，结果服务员告诉我那是  明月三千里 的缩写

虎年初五迎财神
祝大家财运亨通 万事大吉

西溪湿地三堤十景
三堤 福堤，绿堤，寿堤
十景 河渚听曲、曲水寻梅、龙舟胜会、莲滩鹭影、蒹葭泛月、
高庄宸迹、洪园余韵、渔庄烟雨、秋芦飞雪、火柿映波

presto 
Distributed SQL Query Engine for Big Data
可连接多个数据源，跨数据源连表查询
使用内存计算，减少与硬盘交互

无量化 无管理 先量化 后决策

与 SparkSQL 相比，Presto 是一个常驻的 MPP 架构的 SQL 查询引擎，
避免了 Spark Context 启动以及资源申请的开销，端到端延迟较低

Flink基于分布式快照与可部分重发的数据源实现容错
可自定义对整个Job进行快照的时间间隔，当任务失败时，将整个Job恢复到最近一次快照，并从数据源重发快照之后的数据
Flink的分布式快照实现借鉴了Chandy和Lamport在1985年发表的一篇关于分布式快照的论文 
按照用户自定义的分布式快照间隔时间，定时在所有数据源中插入一种特殊的快照标记消息，
这些快照标记消息和其他消息一样在DAG中流动，但是不会被用户定义的业务逻辑所处理，
每一个快照标记消息都将其所在的数据流分成两部分 本次快照数据和下次快照数据

知识管理的核心就是在有限的信息容量里装入尽可能多的信息，其实就是输入信息的压缩与解压

Flink 分布式快照 容错机制优点
低延迟 高吞吐量 与业务逻辑的隔离 错误恢复代价低

Spark 运行模式
local 本地模式  local 单线程 和 local-cluster 多线程
standalone 独立集群模式 ，使用自带的集群管理器 ， 典型的 Mater/slave 模式
standalone-HA   独立集群高可用模式  ，基于zk 搭建高可用，避免 Master 单点故障
on yarn   运行在 yarn 集群之上，由 yarn 负责资源管理，Spark 负责任务调度和计算 ，计算资源按需伸缩，集群利用率高，共享底层存储，避免数据跨集群迁移

2006年女足战胜东道主澳大利亚夺冠，
随后，上证指数从1600点涨到6100点，这次能涨多少 ？

2013 年  Hive 慢不好用 
谷歌的 Dremel 刚出来没多久，掀起了交互式查询的风潮
Cloudera  Impala
Hadoop 发行商 MapR  Apache Drill

OLAP 按数据存储格式分
ROLAP（Relational OLAP）  基于多维数组的存储模型，预计算，以空间换效率  Kylin Druid
MOLAP（Multi-dimensional OLAP） 基于关系模型进行存储数据，不需要预计算，按需即时查询   Presto impala
HOLAP（Hybrid OLAP）