image-20241112204045174


有关 Github \text{Github} Github仓库,欢迎来 Star \text{Star} Star

1.   \textbf{1. } 1. 导论: 大数据 & \textbf{\&} &数据挖掘

1️⃣大数据

  1. 含义:数据量巨大的数据,以至于合理时间内人类无法整理出可用信息
  2. 特性: Volume \text{Volume} Volume(规模大) +Variety \text{+Variety} +Variety(多样) +Velocity \text{+Velocity} +Velocity(数据产生/处理极快) +Veracity  \text{+Veracity } +Veracity (真实但低质)

2️⃣数据挖掘

  1. 含义:从大数据中挖掘有价值的知识/规律
  2. 任务:分析(关联性/聚类) + \text{+} +预测(分类/回归) + \text{+} +关联规则等

3️⃣其它

  1. 大数据的应用:进人工智能(算力驱动/神经符号协同/记忆启发) + \text{+} +促进教育
  2. 面临的挑战:相关性 ≠ \neq =因果,可解释性,群智涌现(群体智力远超个体),隐私,可视化

2.   \textbf{2. } 2. 数据预处理

2.1.   \textbf{2.1. } 2.1. 数据及其描述

1️⃣数据对象及其属性

  1. 对象:数据集的组成单元,代表一个实体
  2. 属性:对实体(对象)的描述
    属性类型含义举例描述
    二元属性值域只有 True/False \text{True/False} True/False诊断结果 N/A \text{N/A} N/A
    枚举属性值域由无序/不定量符号组成职业类型众数
    序数属性值间的序有意义,但前后序是定性的军衔级别众数/中位数
    数值可用整数或实数度量好多众数/中位数/平均数

2️⃣数据基本统计描述

  1. 传统的:算术/加权平均,中位数,众数(模),极差,标准差/方差
  2. 百分位:第 k k k个百分位数 x k x_k xk表示 k % k\% k%的数据低于 x k x_k xk,如 Q 1 Q_1 Q1/中位数/ Q 3 Q_3 Q3(即 25 / 50 / 75 25/50/75 25/50/75百分位数)

3️⃣数据基本图形描述

  1. 传统的:直方图,分位数图,散点图
  2. Box Plot \text{Box Plot} Box Plot
    image-20241112232606017
    • 四分位极差: IQR= Q 3 − Q 1 \text{IQR=}Q_3-Q_1 IQR=Q3Q1
    • 孤立点( Outlier \text{Outlier} Outlier):在 Q 1 − 1.5 IQR Q_1-1.5\text{IQR} Q11.5IQR之下或者 Q 1 + 1.5 IQR Q_1\text{+}1.5\text{IQR} Q1+1.5IQR之上
    • 盒图要素:上下端在 Q 1 / Q 3 {Q_1/Q_3} Q1/Q3上,中位数处划线,胡须延伸到最大最小观测值

4️⃣数据相关性描述: Pearson \text{Pearson} Pearson相关系数 r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 \displaystyle{}r=\cfrac{\displaystyle{}\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\displaystyle{}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} \sqrt{\displaystyle{}\sum_{i=1}^n\left(y_i-\bar{y}\right)^2}} r=i=1n(xixˉ)2 i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ)

2.2.   \textbf{2.2. } 2.2. 数据预处理

1️⃣概述

  1. 为何要预处理:数据不完整/有噪声/不一致(比如年龄可用汉字或数字表示)
  2. 数据预处理任务:数据清理/集成/变换/归约(压缩)/离散化…

2️⃣数据清洗

  1. 填补空缺值:人工补全,全局(千篇一律)补全,平均值补全,基于概率(如 Bayesian \text{Bayesian} Bayesian)补全
  2. 噪声处理:用自适应回归来平滑,通过聚类检测并去除孤立点,排序后分箱

3️⃣数据集成和变换

  1. 数据/模式集成:
    • 含义:将多个数据源中的数据/元数据合并到一个一致的存储
    • 难题:解决数值/属性的冲突(如去掉强相关属性中的一个),实体识别,检测并去除冗余数据
  2. 数据变换:将数据统一成适合挖掘的形式
    • 归一化:将数据缩放到特定区间,如最值归一 v ′ = v − min ⁡ max ⁡ − min ⁡ /Z-Score v^{\prime}\text{=}\cfrac{v-\min}{\max{}-\min{}}\text{/Z-Score} v=maxminvmin/Z-Score归一 v ′ = v − μ σ v^{\prime}\text{=}\cfrac{v-\mu}{\sqrt{\sigma}} v=σ vμ
    • 属性构造:通过现有属性构造新的属性
    • 数据泛化:沿概念分层向上汇总

4️⃣数据规约

  1. 含义:大大压缩数据的存储空间,但是保证数据分析的质量
  2. 策略:堆规约(移除不重要元素/属性),数据压缩(有损/无损),数值规约(用较小的数据表示替代)
Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐