第七章 聚类

7.1 聚类分析

  • 聚类分析(Cluster analysis),简称聚类(Clustering),是一个把数据对象划分为子集的过程
  • (Cluster):每一个子集是一个簇
    • 簇内对象相似,簇间对象相异
    • 最小化类内距离,最大化类间距离
  • 聚类是一种无监督学习
  • 好的聚类分析方法会产生高质量的聚类
    • 高类内相似度,低类间相似度
  • 聚类方法中主要的因素是距离或相似度
  • 聚类分析的数据挖掘功能
    • 作为一个独立的工具来获得数据分布的情况
    • 作为其他算法(如:特征和分类)的预处理步骤
  • 聚类分析的数据集——没有类别属性,没有训练集

7.2 典型聚类应用

  • 图像像素聚类
  • 图像数据分析
  • 商务数据分析
  • 万维网数据分析

7.3 K-means聚类方法

  • 划分聚类方法

    • 选择合适的初始代表点将数据样本进行初始聚类,之后通过不断迭代的过程对聚类的结果进行不断的调整,直到满足聚类评价的准则为止。
    • 通常通过计算对象间距离进行划分
  • 典型的划分方法

    • k-means
    • k-中心点
    • 以上两种方法的变种
  • 划分聚类方法对数据集聚类时的三个要点

    • 选定某种距离作为数据样本间的相似性度量
    • 选择评价聚类性能的准则函数
    • 选择某个初始分类,之后用迭代方法得到聚类结果,使得评价聚类的准则函数取得最优值
  • k-means聚类步骤

    • k-means聚类算法将各个聚类子集内的所有数据样本的均值作为该聚类的代表点通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类类内紧凑,类间独立
    • k-means聚类算法不适合处理离散型属性,但是对于连续型属性具有较好的聚类效果。
  • 聚类的结果使评价聚类性能的误差平方和准则函数的值达到最优。
    Je=∑i=1c∑x∈Di∣∣x−mi∣∣2,mi=1n∑x∈Dix J_e=\sum_{i=1}^c \sum_{x\in D_i} ||x-m_i||^2,m_i=\frac{1}{n}\sum_{x\in D_i}x Je=i=1cxDi∣∣xmi2,mi=n1xDix

  • k-means聚类方法的优点

    • 与层次聚类相比,k均值可以得到更紧密的簇,尤其对于球状簇
    • 对于簇与簇之间区别明显时,效果较好
  • k-means聚类方法的缺点

    • 聚类的个数不好掌握
      • 改进: ①① 首先采用层次凝聚算法决定结果簇的数目,并找到一 个初始聚类,然后用迭代重定位来改进该聚类。②② 根据k值的变化可以得到一个误差平方和准则函数变化的曲线,从曲线的变化规律,结合实际问题的经验,找到一个相对最合适的聚类个数。
    • 对初始值很敏感
      • 改进: ①① 按照经验进行确定;②② 随机选择k个数据样本点作为初始点;③③ 在k-means之前先进行一轮k-means,找到一个初始聚类,然后用迭代重定位来改进该聚类。
    • 对噪声点非常敏感
      • 改进:①① 对样本进行预处理,筛掉与其他样本的距离和最大的m个对象; ②② 不采用簇中的平均值作为参考点,而选用簇中位置最靠近中心的对象。
  • k-中心点(k-medoids)——选择到当前簇中点的距离之和最小的点作为中心点

7.4 典型聚类方法

  • 数据类型
    • 中心型(Center-based):簇的中心通常在簇中所有点的平均值附近
    • 密度型(Density-based)
    • 连续型(Contiguous Cluster)
  • 数据挖掘对聚类分析的要求
    • 处理不同数据类型的能力
    • 发现任意形状的能力
    • 减小对先验知识和用户自定义参数的依赖性
    • 处理噪声数据的能力
    • 可解释性和可用性
7.4.1 划分方法
  • 划分聚类方法
    • 适合发现球形的聚类结构
7.4.2 密度方法
  • 密度聚类方法
    • 适合发现任意形状的聚类结构
    • 可以去除噪声
    • 需要参数作为终止条件
    • 主要方法
      • DBSCAN;OPTICS;DENCLUE;CLIQUE
    • 以数据集在空间分布的稠密程度为依据进行聚类,适合未知内容的数据集进行聚类
    • 指导思想:只要一个区域中的点的密度大于某个域值,就把它加到与之相近的聚类中去。(给定的半径ε的邻域中至少要包含最小数数目个对象)
    • 可发现任意形状的聚类,且对噪声数据不敏感。
    • 缺点
      • 输入参数敏感
      • 计算密度单元的计算复杂度大
7.4.3 图的方法
  • 谱聚类
    • 优点
      • 只需要数据之间的相似度矩阵,对处理稀疏矩阵的聚类很有效。
      • 适合高维数据的聚类
    • 缺点
      • 复杂度高
      • 谱聚类对相似度图的改变和聚类参数的选择非常的敏感。
7.4.4 层次方法
  • 对给定数据集分层进行划分,形成一个以各个聚类为结点的树形结构
  • 分成凝聚型(AGNES)和分裂型(DIANA)两种方式。
  • 改进的层次聚类方法
    • BIRCH利用层次方法的平衡迭代规约和聚类
    • Chameleon(变色龙)多阶段层次聚类
  • 优点:简单、易实现、容易理解
  • 缺点
    • 不能纠正错误的合并或者分裂。
    • 不具有很好的可伸缩性,因为合并或分裂的决定需要检查和估算大量的对象或簇。

7.5 评估

  • 外在方法:当有基准可用时,可以将它与聚类进行比较,评估聚类。
  • 内在方法:考察簇的分离情况和紧凑情况
  • 纯度(purity):计算正确聚类的样本数占总样本数的比例
  • 最小误差
  • NMI(Normalized Mutual Information) 即归一化互信息
  • RI (Rand Index) 将聚类看成是一系列的决策过程
  • ARI (Adjusted Rand Index)

第七章完

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐