互联网时代 知识上云 云老师无处不在
NewSQL 拥有 NoSQL 良好的扩展性,还拥有 SQL 这样的语言特性 和 关系型数据库一样的事务支持
谷歌 Spanner 是第一款支持全球性事务的事务性分析数据库
NewSQL 选择兼容传统关系型数据库,比如 TiDB 支持 MySQL 协议,CockroachDB 支持 PostgreSQL 协议
谷歌开启了 NoSQL 时代,却又回归 关系型数据库 和 SQL 的怀抱
While these systems provided some of the benefits of a database system,
they lacked many traditional database features that application developers often rely on.
A key example is a robust query language, meaning that developers had to write complex code to process and aggregate the data in their applications.
As a result, we decided to turn Spanner into a full featured SQL system,
with query execution tightly integrated with the other architectural features of Spanner
(such as strong consistency and global replication).
Hadoop 开启大数据时代,传统的关系型数据库退居幕后
非关系型数据库诞生后,激进地 NoSQL 运动,试图抛弃 SQL 及 关系型数据库,
但是随着大数据热潮的褪去,非关系型数据库的缺陷渐渐为人所知,
NoSQL 其实是 Not Only SQL ,而不是 No SQL
NoSQL NotOnlySQL NewSQL
2004 Google GFS MapReduce BigTable
2006 hadoop HDFS MapReduce
2008 pig hive hbase
2012 yarn spark
2014 storm flink spark-streaming
1880年美国进行人口普查的数据全靠手工处理,历时7年才得到结果。
同年,美国人口调查局职员霍列瑞斯发明了用于人口普查数据的穿孔卡片及机器,并用于1890年美国人口普查,仅6周就完成了统计。
霍列瑞斯后来创建了一个公司,叫做制表机公司,就是后来的国际商用机器公司(IBM)
每个Spark job 会启动一个 Driver 进程
local(本地模式):Driver进程直接运行在本地
yarn-client:Driver运行在本地
yarn-cluster:Driver运行在集群(NodeManager)
成本低,时间就是你的朋友,否则就是你的敌人
Lakehouse = 云上对象存储 + 湖格式 + 湖管理平台
数据湖以基于 HDFS 存储、或者基于云上的对象存储这种相对低成本、高可用的统一存储系统,替换了原先的底层存储。
可以存储各种原始数据,无需提前进行建模和数据转化,存储成本低且拓展性强
支持半结构化和非结构化的数据
数据更加开放,可以通过各种计算引擎或者分析手段读取数据,支持丰富的计算场景,灵活性强且易于启动。
一些问题
数据链路长/组件多导致出错率高、数据可靠性差
各个系统间不断的数据迁移同步给数据一致性和时效性带来挑战
湖里的数据杂乱无章,未经优化直接访问查询会出现性能问题
整体系统的复杂性导致企业建设和维护成本高等
第一页
上一页
下一页
最后一页