
大数据集群搭建方案对比
回顾从前,已经在大数据领域混了5年了,经手了不少大数据集群搭建方案,自己也做过许多大数据平台的运维工作,在这里进行阶段性的总结,主要是 原生Hadoop、CDH、Ambari集群搭建对比。
1.前言
回顾从前,已经在大数据领域混了5年了,经手了不少大数据集群搭建方案,自己也做过许多大数据平台的运维工作,在这里进行阶段性的总结。
2.大数据集群方案对比
简单直接,这里站在生产环境的角度考虑如何选择集群搭建方案,大致有如下几个维度:
对比项 | 原生Hadoop | CDH | HDP(Ambari) |
---|---|---|---|
是否开源 | 完全开源 | 收费/免费(可商用) | 开源 |
安装方式 | 手动 | 工具 | 工具 |
适用集群规模 | 10个节点以内 | n个节点 | n个节点 |
搭建复杂度 | 困难 | 容易 | 容易 |
运维难度 | 困难 | 容易 | 中等 |
市场占有率 | 低 | 高 | 中 |
所属机构 | Apache | Cloudera | Hortonwork |
接下来进行一些扩展:
-
CDP
CDP是 2018年 Cloudera与 Hortonworks以 52亿美元价格宣布合并之后,新公司所发布的首款新产品,也是一个基于云的大数据平台,需要付费使用。至此,CDH 6.x就是最后一个版本了,HDP也不会更新了,后面就只有 CDP了。
-
国内商用大数据平台
笔者接触的国内商用大数据平台有:
华为 FusionInsight和 腾讯 TBDS两家,其中 华为FI落地是在上海,集群规模 100+,根据业务特点,单独部署了 Spark集群和 HBase集群;腾讯 TBDS落地在江苏,集群规模 50+,据说腾讯这个是基于 Ambari进行二次开发的,整体易用性和稳定性都很不错。
对于集群搭建方案的选择,这里笔者也给出一些自己的看法:
-
CDH ——国内公司首选
节点数量不多,小于 50个节点,基本不会对组件进行修改,重点在于大数据应用的开发,选它。
-
HDP
可能会对组件进行调整,不满于 CDH免费版的一些限制,选它。
-
原生 Hadoop ——完全开源
集群规模小,比如 内部开发环境;需要修改组件源码,做一些定制化,选它。
-
商用大数据平台
项目或者产品的预算够,选它。
3.总结
笔者上一家公司第一代大数据平台使用的是 CDH免费版,因为其中的不少限制,第二代大数据平台选择了开放性更好的 HDP(Ambari)。现公司,原生 Hadoop和 CDH并存,为什么呢?信创。由于信创机器的限制,CDH无法在上面部署,而原生的 Hadoop我们团队亦进行了部分源码修改才得以正常运行。
更多推荐
所有评论(0)