首页 最新段子

Doris是一个MPP的OLAP系统,主要整合了Google Mesa(数据模型),Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩) 的技术
2013 年 谷歌 Dremel 掀起了交互式查询的风潮
Cloudera  Impala
Hadoop 发行商 MapR  Apache Drill
数据湖以基于 HDFS 存储、或者基于云上的对象存储这种相对低成本、高可用的统一存储系统,替换了原先的底层存储。
可以存储各种原始数据,无需提前进行建模和数据转化,存储成本低且拓展性强
支持半结构化和非结构化的数据
数据更加开放,可以通过各种计算引擎或者分析手段读取数据,支持丰富的计算场景,灵活性强且易于启动。
一些问题
数据链路长/组件多导致出错率高、数据可靠性差
各个系统间不断的数据迁移同步给数据一致性和时效性带来挑战
湖里的数据杂乱无章,未经优化直接访问查询会出现性能问题
整体系统的复杂性导致企业建设和维护成本高等
Lakehouse = 云上对象存储 + 湖格式 + 湖管理平台
成本低,时间就是你的朋友,否则就是你的敌人
每个Spark job 会启动一个 Driver 进程
local(本地模式):Driver进程直接运行在本地
yarn-client:Driver运行在本地
yarn-cluster:Driver运行在集群(NodeManager)
1880年美国进行人口普查的数据全靠手工处理,历时7年才得到结果。
同年,美国人口调查局职员霍列瑞斯发明了用于人口普查数据的穿孔卡片及机器,并用于1890年美国人口普查,仅6周就完成了统计。
霍列瑞斯后来创建了一个公司,叫做制表机公司,就是后来的国际商用机器公司(IBM)
2004 Google  GFS MapReduce BigTable 
2006 hadoop HDFS MapReduce
2008 pig hive hbase
2012 yarn spark
2014 storm flink spark-streaming
NoSQL NotOnlySQL NewSQL
Hadoop 开启大数据时代,传统的关系型数据库退居幕后
非关系型数据库诞生后,激进地 NoSQL 运动,试图抛弃 SQL 及 关系型数据库,
但是随着大数据热潮的褪去,非关系型数据库的缺陷渐渐为人所知,
NoSQL 其实是 Not Only SQL ,而不是 No SQL
NewSQL 拥有 NoSQL 良好的扩展性,还拥有 SQL 这样的语言特性 和 关系型数据库一样的事务支持
谷歌 Spanner 是第一款支持全球性事务的事务性分析数据库
NewSQL 选择兼容传统关系型数据库,比如 TiDB 支持 MySQL 协议,CockroachDB 支持 PostgreSQL 协议
谷歌开启了 NoSQL 时代,却又回归 关系型数据库 和 SQL 的怀抱
While these systems provided some of the benefits of a database system, 
they lacked many traditional database features that application developers often rely on. 
A key example is a robust query language, meaning that developers had to write complex code to process and aggregate the data in their applications. 
As a result, we decided to turn Spanner into a full featured SQL system, 
with query execution tightly integrated with the other architectural features of Spanner 
(such as strong consistency and global replication).
互联网时代  知识上云  云老师无处不在
由于 <-  => 的存在,在代码看到 <= 的时候 ,花了很长时间去想这个到底是什么意思
Complexity is like a bug light for smart people. We can't resist it, even though we know it's bad for us. 
对于聪明人来说,复杂性就像一盏灯,我们无法抗拒它,即使知道它是有害的
Scala过度的灵活性,往往会诱惑他人掉进复杂性的深渊而不能自拔。
它犹如具有「魔戒」的力量,虽然强大,但也很致命。
Complexity is like a bug light for smart people. We can't resist it, even though we know it's bad for us. 
应该理智地抵制复杂性的诱惑,才能真正地发挥Scala的威力。
使用Scala不是为了炫技,而应该尽最大的可能让设计保持简单。
Martin Ordersky也在2016年元旦之初发文,号召社区有志之士在未来的时间里尽最大可能地降低Scala的复杂度
Scala中没有静态字段和静态方法,静态字段和静态方法会打破Scala所支持的完整的面向对象模型
2021年11月1日,根据中华人民共和国工业和信息化部公告(2021年第21号),SJ/T 11788-2021《大数据从业人员能力要求》行业标准正式发布
货币是被铸造的自由
元数据管理 
搜索和发现:数据表、字段、标签、使用信息
访问控制:访问控制组、用户、策略
数据血缘:管道执行、查询
合规性:数据隐私/合规性注释类型的分类
数据管理:数据源配置、摄取配置、保留配置、数据清除策略
AI 可解释性、再现性:特征定义、模型定义、训练运行执行、问题陈述
数据操作:管道执行、处理的数据分区、数据统计
数据质量:数据质量规则定义、规则执行结果、数据统计
velox是facebook 开源的一个针对sql引擎的c++加速库,其加速对象目前主要是针对 presto 和 spark 
velox的核心思路是使用 向量化 技术 ,定位和databricks的photon接近

第一页 上一页 下一页 最后一页