文章详情|大数据架构发展趋势之计算和存储分离

大数据架构发展趋势之计算和存储分离 所属分类 architecture 浏览量 1746
大数据平台的典型部署架构
存储和计算资源共用 
Cloudera CDH 集群 , 每个集群的工作节点都是YARN的计算节点和HDFS存储节点

HDFS为了实现高可用，将数据的每个单元(Block)保存多个副本(Replica)
不同的副本保存在不同的节点上，分布式计算也同时切分为多个任务
每个任务都分配给在本地具有该数据副本的节点上去执行，减少网络带宽  

这种架构的副作用
不能将计算和存储分别扩展
数据的多份副本 大量数据冗余，并且数据处理计算时不能完全确保数据本地访问 

硬件发展趋势  CPU和网速的增长远快于存储，数据中心通常有足够的带宽来用于数据传输
随着数据量的增长到PB和EB级别，多份副本存储 成本增加
计算和存储绑定架构的实用性变差

Spark Flink等计算框架已替代MapReduce，
不仅是批处理，流式处理等实时应用越来越普遍，数据也不再是静态的，
这些应用的I/O访问模式和存储需求需要新的架构去支持

虚拟化和容器技术带来的灵活性和有效的资源利用 
使用物理机的部署方式不再适应这个趋



计算和存储分离将会是未来大数据平台的发展趋势

不同于MapReduce, 现在许多大数据查询引擎都可以支持计算和存储分离，
例如Spark, Apache Drill, AWS Athena和Redshift
维护元数据 ，如果数据在外部存储中就通过引用的方式，而不是将其ETL到本地保存


Hadoop 也已经开始拥抱计算和存储分离
可以在私用云或公有云上运行Hadoop集群，连接共享存储或云存储
Cloudera CDH 已支持 Amazon S3

Hadoop3.0版本中包含了纠删码(Erasure Code)功能
在不降低数据存储高可用的基础上减少数据存储空间
这使Hadoop在计算和存储分离机制的实现上前进了一步
纠删码这种数据保护技术是通过在原始数据中加入新的校验数据，使各个部分的数据产生关联性。
在一定范围的数据出错情况下，通过纠删码技术都可以进行恢复

纠删码在存储效率和数据可靠性上比副本机制成倍提高
纠删码的数据编码和解码需要消耗CPU资源



计算和存储分离架构的主要优势 

计算和存储可以分别扩容 

集中存储单份数据
  通过计算和存储分离，不同的计算集群，Hadoop HDFS, Spark, Cassandra, MongoDB或Tensorflow只需共享访问同一个数据湖存储，节省数据存储成本
  可以使用企业级的共享存储提供持续一致的高性能服务，数据管理和数据安全 统一有效管理
  

赋能敏捷应用开发
  通过企业级共享存储提供的数据快照和内存复制功能，测试和开发可以快速和高效的使用相关数据


混合云部署支持
  计算和存储分离架构可以让用户根据数据处理应用场景和实际计算、存储要求选择使用公有云和私有云的相关资源


简单和灵活的软件管理
  大数据集群中各组件的版本使用和管理更加方便有效，共享存储集群的HDFS版本通常使用稳定版本
  计算集群的组件可以根据应用需求使用升级对应的版本
  使用数据沙盒和容器技术，动态创建各种类型的计算沙盒，如Spark, Flink, Tensorflow, Kafka, Apache Ignite, 关系型数据库等
  这些沙盒的计算资源需求可以根据需求创建，沙盒的底层框架基于Kubernetes和Docker容器
  沙盒中的数据处理任务访问共享存储集群的HDFS，任务完成后，沙盒的计算资源就可以释放并回收
  其中的组件版本可以根据应用的需求独立升级




计算和存储分离架构落地步骤

通过POC搭建计算和存储分离的架构，并评估其敏捷性、灵活性、成本等各方面指标

构建企业数据湖存储集群，集中存放冷、热数据，测试和使用Hadoop生态圈计算和存储分离的技术和产品
包括公有云和私有云的各种类型架构部署，例如使用CDH 6.x版本中的EC，使用数据沙盒技术等

当条件成熟时，现有的计算和存储绑定的平台架构逐步迁移到新的存储和计算分离的平台架构
Spark大数据分析实战第7章 Spark Streaming实时流处理引擎

Clickhouse 监控运维常用SQL

Spark大数据分析实战第8章 Structured Streaming结构化流处理引擎

shell类型查看

MAC 重启终端后配置环境变量不生效

Mac笔记本触摸板设置