Python + 大数据

在这里插入图片描述

阶段一 Python大数据开发基础

第一章 大数据介绍及开发环境
1-1 大数据介绍

【定位】大数据的定位: → 数据处理。

大数据做的是数据处理,Python 做数据分析。

在这里插入图片描述

1 大数据概念

【什么是大数据】

  • 数据

    世界的本质是数据 ——大数据研究专家维克托·迈尔-舍恩伯格博士

  • 大数据定义

    大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据【合着还是个动词】。

    在这里插入图片描述

【大数据处理的数据量有多大?】

在这里插入图片描述

目前的大数据应用,数据量主要集中在PB / EB 级别。

【大数据解决什么问题?】

  • 海量数据存储

    数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。

  • 海量数据计算

    当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。

2 大数据的特点

大数据的特点可以使用5个字来概括:大、多、值、快、信

在这里插入图片描述

  • 数据体量大
  • 种类和来源多样化
  • 低价值密度
  • 速度快
  • 数据的质量
3 大数据的应用场景

【行业领域】

在这里插入图片描述

【大数据让借贷更放心】

打标签 → 人物画像 → 个性化推荐

  • 在金融行业中,以借贷款为例。在贷款前,贷款借出方会先利用大数据对借款人进行贷前审核,以此来保障贷后的还款率。
  • 借出方从各个渠道合法收集借款人的标签信息,如学历,职业,薪资状况,历史借还款情况等。海量数据被放入反欺诈模型,还款能力模型,身份验证模型等数个中做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。
  • 借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。

在这里插入图片描述

【大数据让广告营销更高效】

当然这是落地的产品,大数据不做这些事情,由算法团队来做个性化推荐,大数据杀熟

  • 广告作为互联网行业最常见的变现手段之一,曾几何时,你会发现日常生活中看到的广告居然那么懂你。
  • 在广告投放的前期,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量等,构建全面的用户画像,保证广告定向投放。
  • 在广告投放的中后期,通过实时数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,,让同一个用户在不同的场景下享受不一样的广告服务。

在这里插入图片描述

【大数据让新媒体更懂你】

  • 短视频平台会通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐小视频

    在这里插入图片描述

  • 头条平台会根据你的浏览历史推荐你喜欢或者关注的内容

    在这里插入图片描述

4 大数据分析业务步骤

【流程】

在这里插入图片描述

5 大数据职业规划

【岗位需求】

  • 大数据开发工程师
  • Hadoop开发工程师
  • Spark开发工程师
  • 实时计算开发工程师
  • 数据仓库工程师
  • ETL开发工程师
  • Bl开发工程师
  • 数据挖掘工程师
  • 数据架构师

【职业方向】

在这里插入图片描述

6 大数据学习路线
  1. Linux 系统

    在这里插入图片描述

  2. 编程语言

    在这里插入图片描述

  3. 大数据框架

    在这里插入图片描述

    大数据工具:

    • zookeeper
    • Hadoop
      • MapReduce
      • hdfs
    • Hive
    • azkaban:调度工具
    • impala
    • HBASE
    • Phoenix
    • Redis
    • elasticsearch
    • logstash
    • kibana
    • hue
    • oozie
    • spark
    • flink
    • kafka
    • kudu
    • clickhouse
    • DS

    真又臭又长

    核心框架:Hadoop、Hive、Spark、Flink、Kafka、Hbase

开始吧。

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐