《商务智能管理视角》——（四）数据挖掘（1）

1.数据挖掘定义简单地说，数据挖掘这个名词是指从海量数据中发现或“挖掘”知识，人们很容易发现数据挖掘用词不当，打个比方说，从泥土和岩石中挖掘金子成为掘“金”，而不是“泥土”挖掘或“岩石”挖掘。因此，数据挖掘可能应该被称为“知识挖掘”或“知识发现”，尽管这个名词也和它的实际含义并不匹配，但大家还是选择了数据挖掘这个术语。还有很多其他名词也和数据挖掘有关，包括知识提取，模式分析，数据考古，信息采集

薛定谔的DBA

1755人浏览 · 2013-05-19 12:54:23

薛定谔的DBA · 2013-05-19 12:54:23 发布

1.数据挖掘定义

简单地说，数据挖掘这个名词是指从海量数据中发现或“挖掘”知识，人们很容易发现数据挖掘用词不当，打个比方说，从泥土和岩石中挖掘金子成为掘“金”，而不是“泥土”挖掘或“岩石”挖掘。因此，数据挖掘可能应该被称为“知识挖掘”或“知识发现”，尽管这个名词也和它的实际含义并不匹配，但大家还是选择了数据挖掘这个术语。还有很多其他名词也和数据挖掘有关，包括知识提取，模式分析，数据考古，信息采集，模式搜索和数据捕捞。

严格来说，数据挖掘是一个应用统计学，数学和人工智能技术从大数据集中提取和识别有用信息以及随之而产生的知识的过程。这些模式的表现形式可以是业务规则，类同关系，关联关系，趋势或预测模型。大多数文献将数据挖掘定义为“从结构化数据库中识别出合理的、新颖的、可能有用的、并且最终可理解的模式的一个非简单过程。”

2.数据分类

数据┐

├分类数据（离散数据）

│ ├名目数据：真/假；单身/已婚/离异；亚洲/欧洲/美洲;……

│ └序数数据：儿童/青年/中年/老年；小学/中学/大学；低/中/高；……

├数值数据（连续数据）

│ ├区间数据：温度（-273.15~100）；年龄（0~150）；……

│ └比例数据：地图比例；百分比；……

└其他数控（时间；文本；图形；图像……）

3.数据挖掘任务

数据挖掘任务：预测，关联，聚类

数据挖掘任务分类体系：

数据挖掘

├预测

│ ├分类

│ └回归

├关联

│ ├链接分析

│ └序列分析

└聚类

└孤立点分析

数据挖掘			学习方式	流行算法
	预测		有监督的	分类回归树，ANN，SVM，遗传算法
		分类	有监督的	决策树，ANN/MLP，粗糙集，SVM，遗传算法
		回归	有监督的	线性/非线性回归，回归树，ANN/MLP，SVM
	关联		无监督的	Apriori，OneR，ZeroR，Eclat
		链接分析	无监督的	期望最大化Apriori算法，基于图的匹配算法
		序列分析	无监督的	Apriori算法，FP-Grouth技术
	聚类		无监督的	K-均值，ANN/SOM
		孤立点分析	无监督的	K-均值，最大期望