第一章 绪论

        1.数据挖掘的定义:

        在大型的数据库中,自动地挖掘到有用的信息的过程或潜在模式【目标】

        2.数据库中信息发现的过程:

        输入数据➡️数据预处理➡️数据挖掘➡️后处理(比如模式过滤、可视化)➡️信息

        3.数据挖掘的任务:

            预测任务:预测特定属性的值(分类、回归)

            描述任务:导出可以概括数据潜在联系的模式(相关、趋势、聚类、轨迹和异常)        

第二章 数据预处理         

        1. 数据以及数据集

                数据对象:可以叫做记录、向量、模式、时间、案例、样本、观测或者实体

                数据集:数据对象的集合

                        一般特征:纬度、稀疏性、分辨率

                数据属性:描述数据对象的性质或者特征,因对象而异,或随时间变化

                数据属性类型:标称、顺序(次序)、区间、比率

        2.数据质量             

                离群点、 遗漏值、不一样的值、重复数据

                补全(均值、中位数、差值)数据量比较少的时候

                重复数据删除(删除属性【高维数据的时候】、删对象)数据量比较大的时候

        3.数据预处理

                注:1和2是将数据对象减少,3和4是将数据属性减少,5和6是数据属性类型的转换

                1.聚集:两个或者多个对象合并成单个对象

                2.抽样:选取数据对象子集进行分析

                   原理:如果样本是具有代表性的,则使用样本与使用整个数据集的效果几乎是一样的。而样本时具有代表性的,前提是它近似的具有与原数据相同的性质。

                   方法:

                        随机抽样(简单随机抽样、系统抽样、分层、整群抽样)

                        非随机抽样(滚雪球抽样、渐进抽样)

                3.维规约:将原先高维的数据合理地压缩成低维数据的过程,以减少数据量。

                    方法:主成分分析、 奇异值分解

                4.特征子集选择和特征创建

                        特征创建方法:由原来的属性集创建新的属性集

                        特征构造:由一个或多个原有特征构造新特征

                5.离散化和二元化

                        由于分类算法通常要求数据是分类属性,关联算法通常要求数据是二元属性,但是由于我们所获取的数据一般是连续属性,所以将连续属性转化成分类属性是离散化,连续属性或者离散属性转化成一个或者是多个二元属性是二元化。

                        两个特殊的:

                        分类属性二元化:将y个原始值唯一的赋予区间【0,y-1】中的一个整数,保序之后将这y个整数变换成二进制数。

                               图片解释: 分类值和整数值为原来的分类属性,先是转化成对应的二进制数,3对应的就是 011,转换后的数据是分类值一列和右边的x1,x2,x3三列;此时的转化虽然也是转化成了二元数据,但是我们在引入的过程中引入了相关性,转换了之后属性x2和x3是相关的,因为good值使用这两个属性表示。所以为了避免相关性,我们要对每个分类值引入独特的二元属性。下图是更新后

                        连续属性离散化:将连续属性值排序后,通过制定n-1个分割点,将它们分为n个区间;将一个区间中的所有值映射到相同的分类值

                6.变量变换

                        简单函数变换

                        规范化或标准化:【要会计算公式】

        4.相似性和相异性度量

                相异性度量:欧几里得距离、闵可夫斯基距离

                相似性度量:余弦相似度、简单匹配系数、相关性

第三章 决策树

       1.决策树的构建

                工作原理:通过一系列的关于检验记录属性的问题,用于解决分类问题【属于预测任务】

                建立思想:通过hunt算法,采取一系列的局部最优决策构建【贪心算法,递归思想】

                属性测试条件设计问题:要通过划分后子女节点不纯性的纯度来判断最佳测试条件的度量。【不纯度越低,类分布越倾斜】

                不纯度的衡量度量:

                        熵【!!!】、基尼指数、分类误差【一定要会计算】

                测试条件的效果:我们一般比较父结点的不纯度程度和子女节点的不纯度程度,他们的差越大,则表明当前的分类效果更好。增益▶️是一种用于确定划分效果的标准。                

                        特别提醒,当选用熵作为不纯度度量,熵的差等于信息增益。

                        增益率:

                注:不纯性度量可以表示成Info也可以是I

        2.剪枝方法

        当树的规模较大时,容易出现过拟合现象,所以我们需要修剪初始决策树的分支,剪枝有利于提高决策树的泛化能力。        

        3.决策树的特点及适配情况

        特点:

                1.决策树是一种构建分类模型的非参数方法,不要求任何先验假设,不假定类

                2.最坏情况下的时间复杂度为O(w)

        情况:

                1.对于噪音的干扰具有很强的鲁棒性,采用避免过分拟合的方法

                2.冗余属性不会对决策树的准确率造成不利影响

                3.测试条件只涉及一个属性。

第四章 KNN算法

        1.定义

        找出和测试样例的属性相对相近的k个训练样例,这样k个样例中的多数类的类标号就是测试样例所属的类

第五章K-means聚类分析

        1.定义及目标

                定义:聚类分析是根据数据中发现的描述对象以及其关系的信息,将数据对象进行分组。

                目标:组内的对象相互之间是相似的,而不同组中的对象是不同的;组内的相似性越大,组间差别越大,聚类就越好

                类型:1.划分聚类和层次聚类

                           2.互斥的、重叠的与模糊的

                           3.完全的和部分的

                k-means是使用k均值,k均值是使用质心定义原型,质心就是一组点的均值

        2.k均值聚类

                邻近度度量:欧式空间里面使用欧几里得距离;文档空间使用余弦相似度;曼哈顿距离计算一个对象到另一个对象的折现距离

        3.实例

        (1)欧式距离空间中的数据:使用误差的平方和SSE度量聚类质量的目标函数    

        (2)文档数据:使用余弦相似度度量聚类质量的目标函数

        

        操作:

        (1)选择初始质心:初始质心随机初始化,k均值的不同运行将产生不同的总SSE

        (2)出现空簇:当出现空簇的时候,我们要选取一个替补质心

        出现的问题:

           离群点:使用SSE进行计算时,离群点就会过度影响所发现的簇,会导致质心没有代表性。

           SSE过大:找到更多的簇,使用更大的k

        4.二分k均值

        是基本k均值算法的直接扩充,基于一种简单想法:为了得到k个簇,将所有的点的结合分裂成了两个簇,从这些簇中再选取一个进行分裂。

        5.聚类分析的特点及适配情况

        k均值算法的局限性:当簇具有非球形或者具有不同尺寸或密度时,k均值难以检测到“自然的”簇。因为k均值目标函数时最小化等尺寸和等密度的球形簇,或者明显分离的簇。

第五章 关联分析

        1.基本术语

                项集:令所有项的集合记为I = {i1,i2,i3.....}, 所有事务的集合记为T = {t1,t 2, t3.....}。包含0个或多个项的集合称为项集,如果一个项集包含k个项,那么称之为k-项集

                支持度计数:包含特定项集的事务个数。

                支持度确定规则可以用于给定数据集的频繁项集,置信度确定再包含X的事务中出现的频繁程度。【要会计算!】

                关联规则发现:给定事务的集合T,关联规则发现是指找出支持度大于等于minsup(支持度阈值)并且置信度大于等于minconf(置信度阈值)的所有规则。

        2.频繁项集的产生

                候选项集:格结构通常用于枚举所有可能的项集。项集I={a,b,c,d,e}可以产生32(2的五次方)-1

                发现频繁项集的一种原始方法:确定格结构中的每一个候选项集的支持度计数,必须将每一个候选项集与每一个事务进行比较。【这种方法比较麻烦,其时间复杂度为O(NMw)

                先验原理:如果一个项集是频繁的,那么其所有子集也一定都是频繁的(相反,如果一个项集是非频繁的,那其超集都是非频繁的)

        3.基于apriori算法的频繁项集产生

                apriori算法是基于支持度的剪枝技术,分析算法的时候要注意两个点:

                        1.算法是一个逐层算法,从频繁1-项集到最长的频繁项集,每次遍历项集格中的一层

                        2.使用产生-测试策略来发现频繁项集

                apriori-gen函数通过两个操作生成候选项集

                        1.候选项集的产生:由前一次迭代发现的频繁(k-1)-项集产生新的候选k-项集

                        2.候选项集的剪枝:基于支持度的剪枝策略,提出一些候选k-项集

                除了apriori算法,也有蛮力算法

        4.基于Fk-1 * F1方法的频繁项集产生

                含义:通过其他频繁项集来扩展(k-1)-项集

                特点:

                        1.该方法产生的候选项集是完备的

                        2.该方法难以避免重复的产生候选项集,但是我们可以通过将每个频繁(k-1)-项集按照字典序存储,而扩展只考虑比它所有的项都大的频繁项集

                        3.会产生大量的不必要的候选

                由此也引出了Fk-1 * Fk-1的频繁项集产生

第六章 人工神经网络              

       1.单层神经网络

        感知器:通过输入加权求和,再减去偏执因子,然后考察结果的符号,得到输出值。  

        由于会存在一定的误差,我们要提高所有的正输入链的权值,降低所有负输入链的权值来提高预测输出值。

        我们学习的过程中会出现权值的更新公式:

        激活函数:放在偏置因子之后,将原来的线性映射转成非线性映射

        

        2.多层神经网络:​​​​​​​

        输入和输出之间也可能包含多个中间层,这些中间层叫做隐藏层,隐藏层中的结点叫做隐藏结点。

        BP前馈、误差后向传播是神经网络中最具有代表性的网络类型,采用最小均方差的学习方式

        3.ANN的特点

                至少含有一个隐藏层的多层神经网络是一种普适近似

                ANN可以用来处理冗余特征,因为权值子啊训练过程中自动学习、冗余特征的权值特别小。

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐