大数据(一)大数据平台和应用简述
文章目录说明分享什么是大数据?大数据平台搭建大数据应用总结2021-08-20说明本博客每周五更新一次。本文主介绍大数据是什么,现有软件架构和主流框架有哪些,具体应用是什么,还有个人的一些拙见。所有内容理论为主,不牵涉太多专业知识,目标是简单易懂。分享大数据博客列表什么是大数据?我常问自己,可一直没有一个很好的答案,直到一次电视综艺节目中,一个企业老板问询大数据求职者时,他的回答让我豁然开朗。大概
·
2021-08-20
说明
-
本博客每周五更新一次。
-
本文主介绍大数据是什么,现有软件架构和主流框架有哪些,具体应用是什么,还有个人的一些拙见。
-
所有内容理论为主,不牵涉太多专业知识,目标是简单易懂。
分享
什么是大数据?
- 我常问自己,可一直没有一个很好的答案,直到一次电视综艺节目中,一个企业老板问询大数据求职者时,他的回答让我豁然开朗。
- 大概意思:大数据重点是大,T、P级数据超过了普通单台计算机的存储和计算上限,大数据就是存储和计算海量数据的技术。
- 意思上看这话没毛病,贴合普通人的思维方式,看到的人很快就知道,大数据就是处理海量到无法想象数据的技术。
- 技术角度有点单薄,大数据技术几十个软件系统,不是简单一句话就能概括,当然日常只会使用其中一部分。
大数据平台搭建
-
绝大多数大数据平台基于Apache开源基金会发布的hadoop软件为基础搭建,当前市场上有两个版本,Apache 开源版和Apache 二次开发版,市场上流行平台搭建方式如下。
- 原生apache版本,免费开源,资料丰富,相关功能组件需要版本适配和优化,没有统一平台化管理软件,技术难度高。
- cdp
- cloudera manager(CDH)和hortonworks(HDP)两家大数据平台公司2019年合并为一家公司,两家公司原有CDH和HDP产品是在apache软件基础上开发,有收费和免费版本,默认并适配常用组件,提供统一平台化管理软件,安装通过web页面操作,简单易用。合并后新产品收费。
-
MapR
- 收费软件,与cdp类似,收费软件。
-
DataSphere Studio(简称DSS)
- 国内微众银行开发并开源的大数据平台,自研很多中间件。
大数据应用
- 大数据技术普遍应用在传统数据计算和AI网络训练。
- 传统计算主要存在通信和大型互联网公司,计算分析实时和历史数据,实现用户分析和追踪,日常的广告推送和快递提醒,都是大数据的产物,简单的说,所有需要海量数据计算并汇聚结果的地方,都有大数据的参与。
- 近年AI技术蓬勃发展,离不开大数据这片土壤,深度器学习效果,依赖于神经网络结构设计和海量数据训练模型,理论上,神经网络结构完美时,数据量越大场景越多,网络能得到充分优化,计算效果越好。
总结
-
一次偶然机会进入大数据行业,凭着过去自学的零星知识,跌跌撞撞学习成长,几年后,终于有了一些自己的见解,以上内容仅做分享。
-
具体技术细节详见各组件专题博客。
更多推荐
所有评论(0)