
Python + 大数据 阶段一 Python大数据开发基础 第一章 大数据介绍及开发环境 1-1 大数据介绍
Python + 大数据 阶段一 Python大数据开发基础 第一章 大数据介绍及开发环境 1-1 大数据介绍
·
Python + 大数据
文章目录
阶段一 Python大数据开发基础
第一章 大数据介绍及开发环境
1-1 大数据介绍
【定位】大数据的定位: → 数据处理。
大数据做的是数据处理,Python 做数据分析。
1 大数据概念
【什么是大数据】
-
数据
世界的本质是数据 ——大数据研究专家维克托·迈尔-舍恩伯格博士
-
大数据定义
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据【合着还是个动词】。
【大数据处理的数据量有多大?】
目前的大数据应用,数据量主要集中在PB / EB 级别。
【大数据解决什么问题?】
-
海量数据存储
数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
-
海量数据计算
当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。
2 大数据的特点
大数据的特点可以使用5个字来概括:大、多、值、快、信
- 数据体量大
- 种类和来源多样化
- 低价值密度
- 速度快
- 数据的质量
3 大数据的应用场景
【行业领域】
【大数据让借贷更放心】
打标签 → 人物画像 → 个性化推荐
- 在金融行业中,以借贷款为例。在贷款前,贷款借出方会先利用大数据对借款人进行贷前审核,以此来保障贷后的还款率。
- 借出方从各个渠道合法收集借款人的标签信息,如学历,职业,薪资状况,历史借还款情况等。海量数据被放入反欺诈模型,还款能力模型,身份验证模型等数个中做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。
- 借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。
【大数据让广告营销更高效】
当然这是落地的产品,大数据不做这些事情,由算法团队来做个性化推荐,大数据杀熟
- 广告作为互联网行业最常见的变现手段之一,曾几何时,你会发现日常生活中看到的广告居然那么懂你。
- 在广告投放的前期,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量等,构建全面的用户画像,保证广告定向投放。
- 在广告投放的中后期,通过实时数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,,让同一个用户在不同的场景下享受不一样的广告服务。
【大数据让新媒体更懂你】
-
短视频平台会通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐小视频
-
头条平台会根据你的浏览历史推荐你喜欢或者关注的内容
4 大数据分析业务步骤
【流程】
5 大数据职业规划
【岗位需求】
- 大数据开发工程师
- Hadoop开发工程师
- Spark开发工程师
- 实时计算开发工程师
- 数据仓库工程师
- ETL开发工程师
- Bl开发工程师
- 数据挖掘工程师
- 数据架构师
【职业方向】
6 大数据学习路线
-
Linux 系统
-
编程语言
-
大数据框架
大数据工具:
- zookeeper
- Hadoop
- MapReduce
- hdfs
- Hive
- azkaban:调度工具
- impala
- HBASE
- Phoenix
- Redis
- elasticsearch
- logstash
- kibana
- hue
- oozie
- spark
- flink
- kafka
- kudu
- clickhouse
- DS
真又臭又长
核心框架:Hadoop、Hive、Spark、Flink、Kafka、Hbase
开始吧。
更多推荐
所有评论(0)