主流的开源大数据框架是什么（大数据开源框架技术汇总）

起身追赶 2022-11-28 02:06:47

主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理可能会有疏漏，发现再整理参考得太多，就不一一列出来了这只是作为一个梳理，对以后选型或者扩展的做个参考，我来为大家科普一下关于主流的开源大数据框架是什么?下面希望有你要的答案，我们一起来看看吧!

主流的开源大数据框架是什么

主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考得太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展的做个参考。

系统平台

Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。

Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。

2005年推出，2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。

Hadoop作为数据分布式处理系统的典型代表，形了成完整的生态圈，已经成为事实上的大数据标准，开源大数据目前已经成为互联网企业的基础设施。

Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。

Hadoop3.0以后的版本对MR做了大量优化，增加了基于内存计算模型，提高了计算效率。比较普及的稳定版本是2.x，目前最新版本为3.2.0。相关网站：Apache Hadoop

CDH：Cloudera CDH是Cloudera基于稳定版Hadoop及相关项目最成型的发行版本。CDH中提供的各种组件能让用户在一个可视化的UI界面中方便地管理，配置和监控Hadoop以及其它所有相关组件。

Cloudera成立于2008年，在2009年Cloudera发行了第一个Hadoop集成版本CDH，到目前为止，因为其易用、易于升级、安装组件和减少维护成本等特性，成为企业部署最广泛的大数据系统。在Hadoop的世界中，规模最大、知名度最高的公司就是Cloudera。

CDH提供强大的部署、管理和监控工具，通过Cloudera Manager的Web UI安装和管理集群，并且通过Hue浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。

随着云计算的发展，催生了亚马逊AWS等巨头，他们也会提供托管的Hadoop/Spark服务，如AWS的Elastic Map Reduce(EMR)，不仅集成在云平台内部而且成本也更低。

而对象存储服务，如AWS S3，Azure Blob存储和Google云端存储，从成本上来说，也低于Hadoop的存储成本。但是，对于重视数据资产的企业来说依旧需要Cloudera产品。Cloudera也一直致力于向云计算转型。

2018年10月Cloudera合并Hortonworks，表示新的公司将成为行业领导者，为客户提供更好的平台，创建世界首个企业数据云，并将在云计算、物联网和容器技术等领域继续发力。

这对Hadoop的发展方向是一个打击，但也意味着Hadoop的标准将更加统一，将有更多资金投入新技术的研究。CDH目前最新版本为6.2.0。相关网站：Cloudera CDH

HDP：HDP是Hortonworks在基于Hadoop的发行版本。2014年Hortonworks上市，是企业级全球数据管理平台，同时也是服务和解决方案的领先供应商，为100强企业中的一多半提供“任何类型数据”的可操作信息，已经成为世界第二大数据服务商。

Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。

Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行，相比于CDH只能运行在Linux系统中。

使用Ambari提供Web UI管理集群。HDP好处是完全开源，可以在其基础上进行二次开发，但对于技术比较薄弱中小型企业来说稳定性没有CDH高。2018年10月Cloudera合并Hortonworks，方向暂时未知。HDP目前最新版本为3.1。相关网站：Hortonworks HDP

集群管理与监控Clodera Manager：CM是Cloudera开发的一个基于Web的用于部署和管理CDH集群的软件。它具有集群自动化安装、中心化管理、集群监控、报警等功能，大大节省集群部署时间，降低了运维成本，极大地提高集群管理的效率。(非开源)