数据挖掘【期末复习plus版】

找出和测试样例的属性相对相近的k个训练样例，这样k个样例中的多数类的类标号就是测试样例所属的类定义：聚类分析是根据数据中发现的描述对象以及其关系的信息，将数据对象进行分组。目标：组内的对象相互之间是相似的，而不同组中的对象是不同的；组内的相似性越大，组间差别越大，聚类就越好类型：1.划分聚类和层次聚类2.互斥的、重叠的与模糊的3.完全的和部分的k-means是使用k均值，k均值是使用质心定义原型，

linmu__ykx

686人浏览 · 2024-12-26 15:38:17

linmu__ykx · 2024-12-26 15:38:17 发布

第一章绪论

1.数据挖掘的定义：

在大型的数据库中，自动地挖掘到有用的信息的过程或潜在模式【目标】

2.数据库中信息发现的过程：

输入数据➡️数据预处理➡️数据挖掘➡️后处理（比如模式过滤、可视化）➡️信息

3.数据挖掘的任务：

预测任务：预测特定属性的值（分类、回归）

描述任务：导出可以概括数据潜在联系的模式（相关、趋势、聚类、轨迹和异常）

第二章数据预处理

1. 数据以及数据集

数据对象：可以叫做记录、向量、模式、时间、案例、样本、观测或者实体

数据集：数据对象的集合

一般特征：纬度、稀疏性、分辨率

数据属性：描述数据对象的性质或者特征，因对象而异，或随时间变化

数据属性类型：标称、顺序（次序）、区间、比率

2.数据质量

离群点、遗漏值、不一样的值、重复数据

补全（均值、中位数、差值）数据量比较少的时候

重复数据删除（删除属性【高维数据的时候】、删对象）数据量比较大的时候

3.数据预处理

注：1和2是将数据对象减少，3和4是将数据属性减少，5和6是数据属性类型的转换

1.聚集：两个或者多个对象合并成单个对象

2.抽样：选取数据对象子集进行分析

原理：如果样本是具有代表性的，则使用样本与使用整个数据集的效果几乎是一样的。而样本时具有代表性的，前提是它近似的具有与原数据相同的性质。

方法：

随机抽样（简单随机抽样、系统抽样、分层、整群抽样）

非随机抽样（滚雪球抽样、渐进抽样）

3.维规约：将原先高维的数据合理地压缩成低维数据的过程，以减少数据量。

方法：主成分分析、奇异值分解

4.特征子集选择和特征创建

特征创建方法：由原来的属性集创建新的属性集

特征构造：由一个或多个原有特征构造新特征

5.离散化和二元化

由于分类算法通常要求数据是分类属性，关联算法通常要求数据是二元属性，但是由于我们所获取的数据一般是连续属性，所以将连续属性转化成分类属性是离散化，连续属性或者离散属性转化成一个或者是多个二元属性是二元化。

两个特殊的：

分类属性二元化：将y个原始值唯一的赋予区间【0，y-1】中的一个整数，保序之后将这y个整数变换成二进制数。

图片解释：分类值和整数值为原来的分类属性，先是转化成对应的二进制数，3对应的就是 011，转换后的数据是分类值一列和右边的x1，x2，x3三列；此时的转化虽然也是转化成了二元数据，但是我们在引入的过程中引入了相关性，转换了之后属性x2和x3是相关的，因为good值使用这两个属性表示。所以为了避免相关性，我们要对每个分类值引入独特的二元属性。下图是更新后

连续属性离散化：将连续属性值排序后，通过制定n-1个分割点，将它们分为n个区间；将一个区间中的所有值映射到相同的分类值

6.变量变换

简单函数变换

规范化或标准化：【要会计算公式】

4.相似性和相异性度量

相异性度量：欧几里得距离、闵可夫斯基距离

相似性度量：余弦相似度、简单匹配系数、相关性

第三章决策树

1.决策树的构建

工作原理：通过一系列的关于检验记录属性的问题，用于解决分类问题【属于预测任务】

建立思想：通过hunt算法，采取一系列的局部最优决策构建【贪心算法，递归思想】

属性测试条件设计问题：要通过划分后子女节点不纯性的纯度来判断最佳测试条件的度量。【不纯度越低，类分布越倾斜】

不纯度的衡量度量：

熵【！！！】、基尼指数、分类误差【一定要会计算】

测试条件的效果：我们一般比较父结点的不纯度程度和子女节点的不纯度程度，他们的差越大，则表明当前的分类效果更好。增益▶️是一种用于确定划分效果的标准。

特别提醒，当选用熵作为不纯度度量，熵的差等于信息增益。

增益率：

注：不纯性度量可以表示成Info也可以是I

2.剪枝方法

当树的规模较大时，容易出现过拟合现象，所以我们需要修剪初始决策树的分支，剪枝有利于提高决策树的泛化能力。

3.决策树的特点及适配情况

特点：

1.决策树是一种构建分类模型的非参数方法，不要求任何先验假设，不假定类

2.最坏情况下的时间复杂度为O（w）

情况：

1.对于噪音的干扰具有很强的鲁棒性，采用避免过分拟合的方法

2.冗余属性不会对决策树的准确率造成不利影响

3.测试条件只涉及一个属性。

第四章 KNN算法

1.定义

找出和测试样例的属性相对相近的k个训练样例，这样k个样例中的多数类的类标号就是测试样例所属的类

第五章K-means聚类分析

1.定义及目标

定义：聚类分析是根据数据中发现的描述对象以及其关系的信息，将数据对象进行分组。

目标：组内的对象相互之间是相似的，而不同组中的对象是不同的；组内的相似性越大，组间差别越大，聚类就越好

类型：1.划分聚类和层次聚类

2.互斥的、重叠的与模糊的

3.完全的和部分的

k-means是使用k均值，k均值是使用质心定义原型，质心就是一组点的均值

2.k均值聚类

邻近度度量：欧式空间里面使用欧几里得距离；文档空间使用余弦相似度；曼哈顿距离计算一个对象到另一个对象的折现距离

3.实例

（1）欧式距离空间中的数据：使用误差的平方和SSE度量聚类质量的目标函数

（2）文档数据：使用余弦相似度度量聚类质量的目标函数

操作：

（1）选择初始质心：初始质心随机初始化，k均值的不同运行将产生不同的总SSE

（2）出现空簇：当出现空簇的时候，我们要选取一个替补质心

出现的问题：

离群点：使用SSE进行计算时，离群点就会过度影响所发现的簇，会导致质心没有代表性。

SSE过大：找到更多的簇，使用更大的k

4.二分k均值

是基本k均值算法的直接扩充，基于一种简单想法：为了得到k个簇，将所有的点的结合分裂成了两个簇，从这些簇中再选取一个进行分裂。

5.聚类分析的特点及适配情况

k均值算法的局限性：当簇具有非球形或者具有不同尺寸或密度时，k均值难以检测到“自然的”簇。因为k均值目标函数时最小化等尺寸和等密度的球形簇，或者明显分离的簇。

第五章关联分析

1.基本术语

项集：令所有项的集合记为I = {i1，i2，i3.....}, 所有事务的集合记为T = {t1,t 2, t3.....}。包含0个或多个项的集合称为项集，如果一个项集包含k个项，那么称之为k-项集

支持度计数：包含特定项集的事务个数。

支持度确定规则可以用于给定数据集的频繁项集，置信度确定再包含X的事务中出现的频繁程度。【要会计算！】

关联规则发现：给定事务的集合T，关联规则发现是指找出支持度大于等于minsup（支持度阈值）并且置信度大于等于minconf（置信度阈值）的所有规则。

2.频繁项集的产生

候选项集：格结构通常用于枚举所有可能的项集。项集I={a,b,c,d,e}可以产生32（2的五次方）-1

发现频繁项集的一种原始方法：确定格结构中的每一个候选项集的支持度计数，必须将每一个候选项集与每一个事务进行比较。【这种方法比较麻烦，其时间复杂度为O（NMw）

先验原理：如果一个项集是频繁的，那么其所有子集也一定都是频繁的（相反，如果一个项集是非频繁的，那其超集都是非频繁的）

3.基于apriori算法的频繁项集产生

apriori算法是基于支持度的剪枝技术，分析算法的时候要注意两个点：

1.算法是一个逐层算法，从频繁1-项集到最长的频繁项集，每次遍历项集格中的一层

2.使用产生-测试策略来发现频繁项集

apriori-gen函数通过两个操作生成候选项集

1.候选项集的产生：由前一次迭代发现的频繁（k-1）-项集产生新的候选k-项集

2.候选项集的剪枝：基于支持度的剪枝策略，提出一些候选k-项集

除了apriori算法，也有蛮力算法

4.基于Fk-1 * F1方法的频繁项集产生

含义：通过其他频繁项集来扩展（k-1）-项集

特点：

1.该方法产生的候选项集是完备的

2.该方法难以避免重复的产生候选项集，但是我们可以通过将每个频繁（k-1）-项集按照字典序存储，而扩展只考虑比它所有的项都大的频繁项集

3.会产生大量的不必要的候选

由此也引出了Fk-1 * Fk-1的频繁项集产生

第六章人工神经网络

1.单层神经网络

感知器：通过输入加权求和，再减去偏执因子，然后考察结果的符号，得到输出值。

由于会存在一定的误差，我们要提高所有的正输入链的权值，降低所有负输入链的权值来提高预测输出值。

我们学习的过程中会出现权值的更新公式：

激活函数：放在偏置因子之后，将原来的线性映射转成非线性映射

2.多层神经网络：

输入和输出之间也可能包含多个中间层，这些中间层叫做隐藏层，隐藏层中的结点叫做隐藏结点。

BP前馈、误差后向传播是神经网络中最具有代表性的网络类型，采用最小均方差的学习方式

3.ANN的特点

至少含有一个隐藏层的多层神经网络是一种普适近似

ANN可以用来处理冗余特征，因为权值子啊训练过程中自动学习、冗余特征的权值特别小。

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

销售数据分析方法、如何写好一个专题分析报告、Hive大数据知识体系教程、大数据分析平台总体架构方案……| 本周精华...

▲点击上方卡片关注我，回复“8”，加入数据分析·领地，一起学习数据分析，持续更新数据分析学习路径相关资料~（精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~）回复“小飞象”，领取数据分析知识大礼包。关注微信公众号：木木自由，更多产品、运营与数据分析干货以及经验分享【数据分析-领地】知识星球，每周会产生大量精华内容，每周将整理《数据分析-领地：一周星球内参》，让你不错过任何一

永洪数据分析社区

Web报表软件的集成方案

报表开发只是应用程序中的一部分，而非全部，因此Web报表软件的集成性就显得非常重要了。　传统的Web报表软件无一例外地都提供了一个独立的报表服务器。采用独立服务器时的，应用结构如下图：　采用独立服务器的不便：• 独立的报表服务器，与应用程序的沟通是通过网络协议，严重降低性能；• 无法享受应用服务器的各项优势功能，包括集群能力、连接池的管理...