首页   快速返回

2018年InfoWorld最佳开源数据平台
文章分类 tech
发布时间 2018-12-20 修改时间 2018-12-20
数据存储和分析
SQL 数据库、NoSQL 数据库、分布式 OLTP 数据库、分布式 OLAP 平台、分布式混合 OLTP/OLAP 平台 流处理平台

Apache Spark 

Apache Spark 2.3 在二月份发布
着重于开发、集成并加强它的 Structured Streaming API。

Apache Pulsar
kafka的替代者 在很多情况下提供了比 Kafka 更快的吞吐量和更低的延迟

Pulsar 的最大优点在于它提供了比 Apache Kafka 更简单明了、
更健壮的一系列操作功能,特别在解决可观察性、地域复制和多租户方面的问题。
在运行大型 Kafka 集群方面感觉有困难的企业可以考虑转向使用 Pulsar。

Apache Beam
批处理和流式处理之间的差异正在慢慢缩小。批次数据变得越来越小,变成了微批次数据,随着批次的大小接近于一,也就变成了流式数据。
Beam 结合了一个编程模型和多个语言特定的 SDK,可用于定义数据处理管道。
在定义好管道之后,这些管道就可以在不同的处理框架上运行,比如 Hadoop、Spark 和 Flink。

Apache Solr
Apache Solr 是基于 Lucene 索引技术而构建的搜索引擎 面向文本的文档数据库
不管是要“大海捞针”,还是要运行空间信息查询,Solr 都可以帮上忙。

JupyterLab
JupyterLab 是新一代的 Jupyter,一个基于 Web 的 notebook 服务器,颇受全世界数据科学家的喜爱。

KNIME 分析平台
KNIME 分析平台是用来创建数据科学应用程序和服务的开源软件。
它提供了可拖放的图形界面,用来创建可视化工作流,还支持 R 和 Python 脚本、机器学习,支持和 Apache Spark 连接器。
KNIME 目前有大概 2000 个模块可用作工作流的节点。

CockroachDB
CockroachDB 是基于事务性和一致性键值存储而构建的分布式 SQL 数据库。
它的设计目标是能够在磁盘、机器、机架甚至是数据中心的故障中存活下来,最小化延迟中断,不需要人工干预。

Vitess
Vitess 是通过分片实现 MySQL 水平扩展的数据库集群系统,主要使用 Go 语言开发 。
Vitess 将 MySQL 的很多重要功能与 NoSQL 数据库的扩展性结合在一起。
它的内置分片功能可以让用户在不需要给应用程序添加分片逻辑的情况下对数据库进行扩展。
Vitess 从 2011 年开始就是 YouTube 数据库基础设施的核心组件,它已经发展到成千上万个 MySQL 节点。

TiDB

TiDB 是一款兼容 MySQL、支持混合事务和分析处理(HTAP)的分布式数据库。
它基于事务性键值存储而构建,提供全面的水平扩展性(通过增加节点)以及持续可用性。
大多数早期的 TiDB 用户都在中国,因为 TiDB 的开发者在北京。TiDB 的源代码主要用 Go 语言编写。
TiDB 的底层是 RocksDB,RocksDB 是 Facebook 的日志结构键值数据库引擎,用 C++ 编写,因此能获得最好的性能。
RocksDB 上面是 Raft 共识层、事务层,然后是支持 MySQL 协议的 SQL 层。

YugaByte DB

YugaByte DB 结合了分布式 ACID 事务、多区域部署、对 Cassandra 和 Redis API 的支持,对 PostgreSQL 的支持即将推出。
相对 Cassandra 而言,YugaByte 是强一致性,而 Cassandra 时最终一致性。
YugaByte 的基准测试也比开源的 Cassandra 要好,但比商用的 Cassandra 要差一些,而 DataStax Enterprise 6 具备可调一致性。
YugaByte 相当于快速、具有更强一致性的分布式 Redis 和 Cassandra。它可以对单个数据库进行标准化处理,比如将 Cassandra 数据库和 Redis 缓存结合在一起。


Neo4j

Neo4j 图形数据库在处理相关性网络的任务时,执行速度比 SQL 和 NoSQL 数据库更快,但图模型和 Cypher 查询语言需要进行专门的学习。
开源版本的 Neo4j 只能在一台服务器上运行。


InfluxDB

InfluxDB 是没有外部依赖的开源时间序列数据库,旨在处理高负载的写入和查询,在记录指标、事件以及进行分析时非常有用。
提供了一个内置的 HTTP API 和 SQL 风格的查询语言,并旨在提供实时的查询响应(100 毫秒之内)。

上一篇     下一篇
学术界和工业界做研发的区别

非阿里的同学如何判断自己的级别

linux系统proc文件系统介绍

2018年度十大网络用语

那些年ofo的广告文案

aerospike数据库配置