《商务智能 管理视角》——(四)数据挖掘(1)
1.数据挖掘定义简单地说,数据挖掘这个名词是指从海量数据中发现或“挖掘”知识,人们很容易发现数据挖掘用词不当,打个比方说,从泥土和岩石中挖掘金子成为掘“金”,而不是“泥土”挖掘或“岩石”挖掘。因此,数据挖掘可能应该被称为“知识挖掘”或“知识发现”,尽管这个名词也和它的实际含义并不匹配,但大家还是选择了数据挖掘这个术语。还有很多其他名词也和数据挖掘有关,包括知识提取,模式分析,数据考古,信息采集
1.数据挖掘定义
简单地说,数据挖掘这个名词是指从海量数据中发现或“挖掘”知识,人们很容易发现数据挖掘用词不当,打个比方说,从泥土和岩石中挖掘金子成为掘“金”,而不是“泥土”挖掘或“岩石”挖掘。因此,数据挖掘可能应该被称为“知识挖掘”或“知识发现”,尽管这个名词也和它的实际含义并不匹配,但大家还是选择了数据挖掘这个术语。还有很多其他名词也和数据挖掘有关,包括知识提取,模式分析,数据考古,信息采集,模式搜索和数据捕捞。
严格来说,数据挖掘是一个应用统计学,数学和人工智能技术从大数据集中提取和识别有用信息以及随之而产生的知识的过程。这些模式的表现形式可以是业务规则,类同关系,关联关系,趋势或预测模型。大多数文献将数据挖掘定义为“从结构化数据库中识别出合理的、新颖的、可能有用的、并且最终可理解的模式的一个非简单过程。”
2.数据分类
数据┐
├分类数据(离散数据)
│ ├名目数据:真/假;单身/已婚/离异;亚洲/欧洲/美洲;……
│ └序数数据:儿童/青年/中年/老年;小学/中学/大学;低/中/高;……
├数值数据(连续数据)
│ ├区间数据:温度(-273.15~100);年龄(0~150);……
│ └比例数据:地图比例;百分比;……
└其他数控(时间;文本;图形;图像……)
3.数据挖掘任务
数据挖掘任务:预测,关联,聚类
数据挖掘任务分类体系:
数据挖掘
├预测
│ ├分类
│ └回归
├关联
│ ├链接分析
│ └序列分析
└聚类
└孤立点分析
数据挖掘 |
|
|
学习方式 |
流行算法 |
|
预测 |
|
有监督的 |
分类回归树,ANN,SVM,遗传算法 |
|
|
分类 |
有监督的 |
决策树,ANN/MLP,粗糙集,SVM,遗传算法 |
|
|
回归 |
有监督的 |
线性/非线性回归,回归树,ANN/MLP,SVM |
|
关联 |
|
无监督的 |
Apriori,OneR,ZeroR,Eclat |
|
|
链接分析 |
无监督的 |
期望最大化Apriori算法,基于图的匹配算法 |
|
|
序列分析 |
无监督的 |
Apriori算法,FP-Grouth技术 |
|
聚类 |
|
无监督的 |
K-均值,ANN/SOM |
|
|
孤立点分析 |
无监督的 |
K-均值,最大期望 |
数据挖掘跨行业标准流程(Cross Industry Standard Process for Data MinningCRISP-DM)
数据挖掘流程:理解业务,理解数据,准备数据,数据建模,测试评估,部署
准备数据
实际数据
↓
数据整合(收集,筛选,集成)
↓
数据清洗(估算缺失值,减低数据噪音,消除不一致)
↓
数据转换(数据标准化,,数据聚集/离散,构造新属性)
↓
数据简化(减少变量数量,减少实例数量,平衡偏斜数据)
↓
良好数据
另一种挖掘方法和流程:SEMMA
SEMMA(抽样(Sample),探索(Explore),修正(Modify),建模(Model),分析(Assecc))
抽样:产生数据代表样本
探索:数据基本描述和可视化
修正:选取变量和变量格式转换
建模:应用各种统计和机器学习模型
分析:估计模型可用性和精确度
CRISP-DM 与 SEMMA 之间的主要区别:
CRISP-DM采用的方法更为全面,包括对数据挖掘项目相关业务和数据的理解;
SEMMA 则隐含假设数据挖掘项目的目标及其恰当数据源已经被识别和理解。
数据库中的知识发现(Knowledge Discovery in Database,KDD)
KDD步骤:数据筛选,数据预处理,数据转换,数据挖掘和解释/评估
更多推荐
所有评论(0)