数据挖掘复习笔记第六章——分类

第六章分类6.1 分类、回归与聚类分类和回归是两种数据分析形式，用于提取描述重要数据类或预测未来的数据趋势的模型。分类：预测类对象的分类标号（离散值）回归：建立连续函数值模型6.2 分类的应用案例6.3 分类概念分类过程测试集要独立于训练样本集，否则会出现“过分拟合”(overfitting)的情况6.4 常用的分类方法6.4.1 K-近邻给定一个未知样本，k-最近邻分类法搜索模式空间，找出最接

Hatter_l

911人浏览 · 2021-11-03 00:11:30

Hatter_l · 2021-11-03 00:11:30 发布

第六章分类

6.1 分类、回归与聚类

分类和回归是两种数据分析形式，用于提取描述重要数据类或预测未来的数据趋势的模型。
- 分类：预测类对象的分类标号（离散值）
- 回归：建立连续函数值模型

6.2 分类的应用案例

6.3 分类概念

在这里插入图片描述

分类过程
测试集要独立于训练样本集，否则会出现“过分拟合”(overfitting)的情况

6.4 常用的分类方法

6.4.1 K-近邻

给定一个未知样本，k-最近邻分类法搜索模式空间，找出最接近未知样本的k个训练样本；然后使用k个最临近者中最公共的类来预测当前样本的类标号

6.4.2 Logistic回归方法

在这里插入图片描述

6.4.3 支持向量机

其决策边界是对学习样本求解的最大边距超平面

6.4.4 神经网络

神经网络是一组连接的输入/输出单元，每个连接都与一个权相连。在学习阶段，通过调整神经网络的权，使得能够预测输入样本的正确标号来学习。

6.4.5 决策树

结点{属性} 边{属性值} 叶子结点{类别}

6.4.6 贝叶斯分类

朴素贝叶斯分类：假设每个属性之间都是相互独立的，并且每个属性对非类问题产生的影响都是一样的。
$P(c|x)=\frac{P(x|c)P(c)}{P(x)}$

6.5 集成学习

在这里插入图片描述

Bagging
Boosting

6.6 评估

6.6.1 分类的评价方法

训练测试法
- 把数据随机分成训练集和测试：训练集 (e.g., 2/3) 用于模型构建；测试 (e.g., 1/3) 用于评估准确率
交叉验证法
- 例如，十折交叉验证。即是将数据集分成十份，轮流将其中9份做训练1份做测试，10次的结果的均值作为对算法精度的估计。

6.6.2 分类的评价准则

准确度
速度
鲁棒性
可解释性
混淆矩阵

$A\PA\backslash P$	$C$	$C‾\overline{C}$	$T o t a l$
$C$	$T P$	$F N$	$P$
$C‾\overline{C}$	$F P$	$T N$	$N$
$T o t a l$	$P^{'}$	$N^{'}$	$A L L$

准确率：
$Accuracy=\frac{(TP+TN)}{ALL}$
错误率：
$Error\ rate=\frac{(FP+FN)}{ALL}$
敏感度：
$Sensitivity=\frac{TP}{P}$
特效性：
$\frac{TN}{N}$
精度：
$precsion=\frac{TP}{(TP+FP)}$
召回率：
$recall=\frac{TP}{(TP+FN)}$
F-measure：
$=\frac{2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙}{𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙}$

第六章完

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

cover

物联网大数据时代：时序数据库选型深度指南，为何IoTDB脱颖而出？

永洪数据分析社区

cover

时序数据库选型指南：工业大数据场景下基于Apache IoTDB技术价值与实践路径

永洪数据分析社区

cover

统计与大数据分析与数学金融课程解析

永洪数据分析社区

所有评论(0)

查看更多评论

Hatter_l

@weixin_51206814

已为社区贡献8条内容