笔记分享: 西安交通大学COMP551705数据仓库与数据挖掘——01. 导论与数据预处理

西安交通大学COMP551705数据仓库与数据挖掘

Kanne＆Seiland

1184人浏览 · 2024-11-18 00:05:41

Kanne＆Seiland · 2024-11-18 00:05:41 发布

文章目录

$\textbf{1. }$ 导论: 大数据 $\textbf{\&}$ 数据挖掘
$\textbf{2. }$ 数据预处理
- $\textbf{2.1. }$ 数据及其描述
- $\textbf{2.2. }$ 数据预处理

有关

\text{Github}

仓库，欢迎来

\text{Star}

$\textbf{1. }$ 导论: 大数据 $\textbf{\&}$ 数据挖掘

1️⃣大数据

含义：数据量巨大的数据，以至于合理时间内人类无法整理出可用信息
特性： $\text{Volume}$ (规模大) $\text{+Variety}$ (多样) $\text{+Velocity}$ (数据产生/处理极快) $\text{+Veracity }$ (真实但低质)

2️⃣数据挖掘

含义：从大数据中挖掘有价值的知识/规律
任务：分析(关联性/聚类) $\text{+}$ 预测(分类/回归) $\text{+}$ 关联规则等

3️⃣其它

大数据的应用：进人工智能(算力驱动/神经符号协同/记忆启发) $\text{+}$ 促进教育
面临的挑战：相关性 $\neq$ 因果，可解释性，群智涌现(群体智力远超个体)，隐私，可视化

$\textbf{2. }$ 数据预处理

$\textbf{2.1. }$ 数据及其描述

1️⃣数据对象及其属性

对象：数据集的组成单元，代表一个实体
属性：对实体(对象)的描述
属性类型含义举例描述
二元属性值域只有 $\text{True/False}$ 诊断结果 $\text{N/A}$
枚举属性值域由无序/不定量符号组成职业类型众数
序数属性值间的序有意义，但前后序是定性的军衔级别众数/中位数
数值可用整数或实数度量好多众数/中位数/平均数

2️⃣数据基本统计描述

传统的：算术/加权平均，中位数，众数(模)，极差，标准差/方差
百分位：第 $k$ 个百分位数 $x_k$ 表示 $k\%$ 的数据低于 $x_k$ ，如 $Q_1$ /中位数/ $Q_3$ (即 $25/50/75$ 百分位数)

3️⃣数据基本图形描述

传统的：直方图，分位数图，散点图
$\text{Box Plot}$

四分位极差： $\text{IQR=}Q_3-Q_1$
孤立点( $\text{Outlier}$ )：在 $Q_1-1.5\text{IQR}$ 之下或者 $Q_1\text{+}1.5\text{IQR}$ 之上
盒图要素：上下端在 ${Q_1/Q_3}$ 上，中位数处划线，胡须延伸到最大最小观测值

4️⃣数据相关性描述： $\text{Pearson}$ 相关系数 $\displaystyle{}r=\cfrac{\displaystyle{}\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\displaystyle{}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} \sqrt{\displaystyle{}\sum_{i=1}^n\left(y_i-\bar{y}\right)^2}}$

$\textbf{2.2. }$ 数据预处理

1️⃣概述

为何要预处理：数据不完整/有噪声/不一致(比如年龄可用汉字或数字表示)
数据预处理任务：数据清理/集成/变换/归约(压缩)/离散化…

2️⃣数据清洗

填补空缺值：人工补全，全局(千篇一律)补全，平均值补全，基于概率(如 $\text{Bayesian}$ )补全
噪声处理：用自适应回归来平滑，通过聚类检测并去除孤立点，排序后分箱

3️⃣数据集成和变换

数据/模式集成：
含义：将多个数据源中的数据/元数据合并到一个一致的存储
难题：解决数值/属性的冲突(如去掉强相关属性中的一个)，实体识别，检测并去除冗余数据

数据变换：将数据统一成适合挖掘的形式
归一化：将数据缩放到特定区间，如最值归一 $v^{\prime}\text{=}\cfrac{v-\min}{\max{}-\min{}}\text{/Z-Score}$ 归一 $v^{\prime}\text{=}\cfrac{v-\mu}{\sqrt{\sigma}}$
属性构造：通过现有属性构造新的属性
数据泛化：沿概念分层向上汇总

4️⃣数据规约

含义：大大压缩数据的存储空间，但是保证数据分析的质量
策略：堆规约(移除不重要元素/属性)，数据压缩(有损/无损)，数值规约(用较小的数据表示替代)

属性类型	含义	举例	描述
二元	属性值域只有 $\text{True/False}$	诊断结果	$\text{N/A}$
枚举	属性值域由无序/不定量符号组成	职业类型	众数
序数	属性值间的序有意义，但前后序是定性的	军衔级别	众数/中位数
数值	可用整数或实数度量	好多	众数/中位数/平均数

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

【金融风控-贷款违约预测】数据挖掘学习：1.赛题理解

学习目标理解赛题数据和目标，清楚评分体系。完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程。了解赛题赛题概况比赛地址：https://tianchi.aliyun.com/competition/entrance/531830/introduction比赛要求参赛选手根据给定的数据集，建立模型，预测金融风险。赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平

永洪数据分析社区

智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么？”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因，业务人员会通过使用多维查询、dashboard等数据产品锁定问题，再辅助人工分析查找问题原因，这个过程通常需要一天时间。几乎每种业务角色的用户都在做相似的分析，但在业务方分析人员发生工作变动时，分析方法难以得到较好传承。因此我们需要一款自动给出分析结论的智能化数据产品来解决上面的问题，

永洪数据分析社区

数据挖掘实验一：分类技术——二分网络上的链路预测

实验一：分类技术——二分网络上的链路预测实验内容采用二分网络模型，对ml-1m文件夹中的“用户—电影”打分数据进行建模，考虑将用户信息、电影详细信息、以及打分分值作为该网络上的边、点的权重；根据网络结构特征给出节点相似性度量指标；基于相似性在二分网络上进行链路预测；画出ROC曲线来度量预测方法的准确性。分析及设计导入数据并初步分析处理数据：观察所给的文件类型为.dat格式，即纯文本格式，pytho