【数据挖掘】十大算法之SVM支持向量机分类算法

支持向量机(support vector machines,SVM)是一种二分类模型。分为给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为w∗⋅x+b∗=0(1)w^* \cdot x + b^* = 0\tag{1}w∗⋅x+b∗=0(1)以及相应的分类决策函数f(x)=sign(w∗⋅x+b∗)(2)f(x) = sign(w^* \cdot x +

Better Bench

2307人浏览 · 2022-06-03 16:56:36

Better Bench · 2022-06-03 16:56:36 发布

1 基本概念

支持向量机(support vector machines,SVM)是一种二分类模型。分为

线性可分支持向量机：训练数据线性可分，通过硬间隔最大化学习一个线性的分类器，又称为硬间隔支持向量机。
线性支持向量机：训练数据近似线性可分，通过软间隔最大化学习一个线性的分类器，又称为软间隔支持向量机。
非线性支持向量机：训练数据线性不可分，通过核技巧及软间隔最大化，学习非线性支持向量机。(核技巧：当输入空间为欧式空间或离散集合、特征空间为希尔伯特空间时，核函数表示将输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数，可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机)

2 线性可分支持向量机

2.1 定义

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
$w^* \cdot x + b^* = 0\tag{1}$
以及相应的分类决策函数
$sign(w^* \cdot x +b^*)\tag{2}$
称为线性可分支持向量机。

2.2 相关概念

（1）函数间隔

一个点距离超平面的远近可以表示分类预测的确信程度，即函数间隔来表述分类的正确性及确信度。

对于给定的训练数据集T和超平面(w,b)，定义超平面(w,b)关于样本点 $x_i,y_i)$ 的函数间隔为
$\hat{\gamma } _i = y_i(w \cdot x_i +b) \tag{3}$
定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点 $x_i,y_i)$ 的函数间隔之最小值，即
$\hat{\gamma} = min_{i}\hat{\gamma} _i ~~~ i = 1,...,N \tag{4}$

（2）几何间隔

在函数间隔的基础上，将点与超平面之间的间隔规范化。对分离超平面的法向量 $w$ 取L2范数。表示为 $∣ ∣ w ∣ ∣$ ，使得超平面的两个参数成比例变化，间隔都是确定。

对于给定的训练数据集T和超平面(w,b)，定义超平面(w,b)关于样本点 $x_i,y_i)$ 的几何间隔为
$\hat{\gamma } _i = y_i(\frac{w}{||w||} \cdot x_i +\frac{b}{||w||}) \tag{5}$
其中 $∣ ∣ w ∣ ∣$ 表示取w的L2范数。定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点 $x_i,y_i)$ 的几何间隔之最小值，即
$\hat{\gamma} = min_{i}\hat{\gamma} _i ~~~ i = 1,...,N \tag{6}$

（3）间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。

间隔最大化：对训练数据集找到几何间隔最大的超平面，以充分大的确信度对训练数据进行分类。

（4）最大间隔法

输入：线性可分训练数据集 $T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $\in X = R^n,y_i \in Y = {-1,+1},i=1,2,...,N$

输出：最大间隔分离超平面和分类决策函数

a.构造并求解约束最优化问题
$min_{w,b} \frac{1}{2}||w||^2 \\ s.t. y_i(w \cdot x_i +b)-1 \geq 0,i=1,2,..,N \tag{7}$

求得最优解 $w^*,b^*$

b.由此得到分离超平面
$w^* \cdot x + b^* = 0\tag{8}$
分类决策函数
$sign(w^* \cdot x +b^*) \tag{9}$
注意：线性可分训练数据集的最大间隔分离超平面是存在且唯一的。

（5）支持向量

在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。

对于 $y_i$ = +1 的正例点，支持向量在超平面
$H_1:w \cdot x+b = 1\tag{10}$
对于 $y_i$ = -1 的负例点，支持向量在超平面
$H_1:w \cdot x+b = -1\tag{11}$

（6）间隔边界

$H_1$ 和 $H_2$ 平行，并且没有实例点落在它们中间。在 $H_1$ 与 $H_2$ 之间形成一条长带，分离超平面与他们平行且位于他们中央。长带的宽度，即 $H_1$ 与 $H_2$ 之间的距离称为间隔。间隔依赖于分离超平民啊的法向量 $w$ ，等于 $\frac{2}{||w||}$ 。称为 $H_1$ 和 $H_2$ 称为间隔边界。
在这里插入图片描述

2.3 学习算法

（1）学习的原始算法

线性可分支持向量机学习的原始最优化问题
$min_{w,b} \frac{1}{2}||w||^2 \\ s.t. \quad y_i(w_i \cdot_i+b)-1 \geq 0 ,i=1,2,...,N \tag{12}$
这是一个凸二次规划问题。

（2）学习的对偶算法

线性可分支持向量机的对偶算法

对偶算法：将原始最优化问题，应用拉格朗日对偶性，求解对偶问题得到原始问题的最优解。

与原始最优化问题等价的最优化问题：
$\frac{1}{2} \sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j) - \sum_{i=1}^N \alpha_i \\ s.t. \quad \sum_{i=1}^N \alpha_i y_i = 0\\ \alpha _i \geq 0,i=1,2,...,N \tag{13}$
其中 $\alpha = (\alpha_1,\alpha_2,...,\alpha_N)^T$ 为朗格朗日乘子向量。

定理： 设 $\alpha^* = (\alpha_1^*,\alpha_2^*,...,\alpha_l^*)$ 是以上公式13对偶最优化问题的解，则存在小标j，使得 $\alpha_j^* >0$ ，并按下式求得原始最优化问题公式12的解 $w^*$ ， $b^*$
$w^* = \sum_{i=1}^N \alpha_i^*y_ix_i\\ b^* = y_i - \sum_{i=1}^N\alpha_i^* y_i(x_i \cdot x_j) \tag{14}$

优点

对偶问题更容易求解
自然引入核函数，进而推广到非线性分类问题

4 线性支持向量机

4.1 软间隔最大化

假设给定一个特征空间上的训练数据集
$\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} \tag{15}$
其中， $x_i \in X = R^n,y_i \in Y = \{+1,-1\},i=1,2,..,N,x_i$ 是第i个特征向量， $y_i$ 为 $x_i$ 的类标记。

线性不可分意味着某些样本点 $x_i,y_i)$ 不能满足函数间隔大于等于1的约束条件公式12。软间隔最大化就是对每个样本点 $x_i,y_i)$ 引进一个松弛变量 $\xi \geq 0$ ，使函数间隔加上松弛变量大于等于1。公式12的约束条件就变为
$y_i (w \cdot x_i +b) \geq 1- \xi_i \tag{16}$

同时，对每个松弛变量 $\xi_i$ ，支付一个代码 $\xi _i$ 。目标函数由原来的 $\frac{1}{2}||w||^2$ 变成
$\frac{1}{2}||w||^2 +C \sum_{i=1}{N} \xi _i \tag{17}$
这里， $C > 0$ 称为惩罚参数，一般由问题决定，C值大时对误分裂的惩罚增大，反之。

这里的最小目标函数有两层含义

使得 $\frac{1}{2}||w||^2$ 尽量小，间隔尽量大。
使误分类的个数尽量小。C是调和二者的系数。

通过软间隔最大化，就能以线性可分的方式来处理线性不可分的线性支持向量机学习问题。

4.2 线性支持向量机的原始最优化问题

线性不可分的线性支持向量机的学习问题变成凸二次规划问题
$min_{w,b.\xi} \quad \frac{1}{2}||w||^2 +C\sum_{i=1}^N \xi _i\\ s.t. \quad y_i(w \cdot x_i +b) \geq 1- \xi _i,i=1,2,...,N\\ \xi _i \geq 0,i=1,2,..,N \tag{18}$

4.3 线性支持向量机定义

对于给定的线性不可分的训练数据集，通过求解凸二次规划问题，即软间隔最大化问题，得到的分离超平面为
$w^* \cdot x +b^* = 0 \tag{19}$
以及相应的分类决策函数
$sign(w^* \cdot x +b^*) \tag{20}$

称为线性支持向量机。

4.4 线性支持向量机的对偶最优化问题

$min_{\alpha} \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j) - \sum_{i=1}^N \alpha_i\\ s.t. \quad \sum_{i=1}^N\alpha_i y_i = 0\\ 0 \leq \alpha_i \leq C,i=1,2,...,N \tag{21}$

4.5 线性支持向量机学习算法

输入：训练数据集 $T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中， $x_i \in X =R^n，y_i \in Y = \{+1,-1\},i=1,2,...,N$

输出：分离超平面和分类决策函数

（1）选择惩罚参数C>0，构造并求解凸二次规划问题
$min_{\alpha} \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j)-\sum_{i=1}^N \alpha_i\\ s.t. \quad \sum_{i=1}^N \alpha_i y_i =0\\ 0 \leq \alpha_i \leq C ,i = 1,2,...,N \tag{22}$
求得最优解 $\alpha^* = (\alpha^*_1,\alpha^*_2,...,\alpha^*_N)^T$

（2）计算 $w^* = \sum_{i=1}^N\alpha_i^* y_i x_i$

选择 $\alpha^*$ 的一个分量 $\alpha_j^*$ 适合条件 $0<\alpha_j^*<C$ ，计算
$b^* =y_j-\sum_{i=1}^N y_i \alpha_i^*(x_i \cdot x_j) \tag{23}$
（3）求得分离超平面
$w^* \cdot x + b^* = 0 \tag{24}$
分类决策函数
$sign(s^* \cdot x +b^*) \tag{25}$

4.6 软间隔的支持向量

在线性不可分的情况下，对偶问题的解 $\alpha^* = (\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 中对应于 $\alpha_i^*>0$ 的样本点 $x_i,y_i)$ 的实例称为软间隔的支持向量。图中标出了实例 $x_i$ 到间隔边界的距离 $\frac{\xi_i}{||w||}$ 。
在这里插入图片描述

若 $\alpha_i^*<C$ ，则 $\xi_i = 0$ ，支持向量 $x_i$ 恰好落在间隔边界上；

若 $\alpha_i^* = C ，0<\xi_i < 0$ ，则分类正确。 $x_i$ 在间隔边界与分离超平面之间；

若 $\alpha_i^* = C,\xi_i = 1$ ，则 $x_i$ 在分离超平面上；

若 $\alpha_i^* = C,\xi_i > 1$ ，则 $x_i$ 位于分离超平面上误分一侧。

5 非线性支持向量机

5.1 基本概念

（1）核技巧

用线性可分方法求解非线性分类问题。分为两步，第一步，使用一个变换将原空间的数据映射到新空间。第二步，在新空间用线性分类方法从训练数据中训练分类模型。

（2）核函数

输入X是输入空间（欧式空间 $R^n$ 的子集或离散集合），又设H特征空间（希尔伯特空间，一个内积空间，当作为一个赋范向量空间是完备的时候），如果存在一个从X到H的映射
$\phi(x) :X \rightarrow H \tag{26}$

使得对所有 $\in X$ ，函数 $K (x, z)$ 满足条件
$\phi(x) \cdot(z) \tag{27}$
则称 $K (x, z)$ 为核函数， $\phi(x)$ 为映射函数， $\cdot$ 表示内积。

（3）非线性支持向量机的定义

从非线性分类训练集，通过核函数与软间隔最大化，或凸二次规划，学习得到的分类决策函数
$sign(\sum_{i=1}^N \alpha_i^* y_i K(x,x_i)+b^*) \tag{28}$
称为非线性支持向量机， $K (x, z)$ 是正定核函数。

5.2 常用核函数

（1）多项式核函数
$\cdot z+1)^p \tag{29}$
对应的支持向量机是一个p次多项式分类器。此时，分类决策函数为
$sign(\sum_{i=1}^{N_s} \alpha_i ^* y_i(x_i \cdot x+1)^p +b^*) \tag{30}$

（2）高斯核函数
$exp(-\frac{||x-z||^2}{2 \rho ^2}) \tag{31}$
对应的支持向量机是高斯径向基函数分类器。此时，分类决策函数为
$sign(\sum_{i=1}^{N_s} \alpha_i^* y_i exp(-\frac{||x-x_i||^2}{2\rho ^2})+b^*) \tag{32}$

（3）字符串核函数

两个字符串s和t上的字符串核函数是基于映射 $\phi _n$ 的特征空间中的内积：
$k_n(s,t) = \sum_{u \in \sum ^n}[\phi _n(s)]_u[\phi _n(t)]_u\\ = \sum_{u \in sum^n(i,j)} \sum_{:s(i)=t(j)=u} \lambda^{l(i)\lambda^{l(j)}} \tag{33}$
字符串核函数 $k_n(s,t)$ 给出了字符串s和t中长度等于n的所有子串组成的特征想来那个的余弦相似度。

5.3 学习算法

输入：训练数据集 $T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中， $x_i \in X =R^n，y_i \in Y = \{+1,-1\},i=1,2,...,N$

输出：分类决策函数

（1）选取适当的核函数K(x,z)和适当的参数C，构造并求解最优化问题
$min_{\alpha} \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i,x_j)-\sum_{i=1}^N \alpha_i\\ s.t. \quad \sum_{i=1}^N \alpha_i y_i =0\\ 0 \leq \alpha_i \leq C ,i = 1,2,...,N \tag{34}$
求得最优解 $\alpha^* = (\alpha^*_1,\alpha^*_2,...,\alpha^*_N)^T$

（2）选择 $\alpha^*$ 的一个正分量 $<\alpha^*_j <C$ 计算

选择 $\alpha^*$ 的一个分量 $\alpha_j^*$ 适合条件 $0<\alpha_j^*<C$ ，计算
$b^* =y_j-\sum_{i=1}^N y_i \alpha_i^*K(x_i, x_j) \tag{35}$
（3）构造决策函数
$w^* \cdot x + b^* = 0 \tag{36}$
分类决策函数
$sign(\sum_{i=1}^N \alpha_i^* y_iK(x,x_i)+b^*) \tag{37}$

当K(x,z)是正定核函数时，解是存在的。

6 算法改进—SMO算法

6.1 基本概念

支持向量机的学习问题可以形式化为求解凸二次规划问题。这样的凸二次规划问题具有全局最优解，并且有许多最优化算法可以应用于这一问题的求解。但是当训练样本容量很大时，这些算法往往变得非常低效，以致无法使用。序列最小最优化算法（Sequential minimal optimization，SMO）算法就是一种快速实现的算法。

6.2 算法思想

是一种启发式算法。思路是如果所有变量的解都满足此最优化问题的KKT条件(Karush-Kuhn-Tucker conditions)，那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充分必要条件，否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这个会使得原始二次规划问题的目标函数值变得更小。更重要的是，这时子问题可以通过解析方法求解，这样可以大大提高整个算法的计算速度。子问题有两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。

整个SMO算法包括两个部分

求解两个变量二次规划的解析方法
选择变量的启发式方法。

6.2 算法过程

SMO算法要解如下凸二次规划的对偶问题
$min_{\alpha} \quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i,x_j)-\sum_{i=1}^N \alpha_i\\ s.t. \quad \sum_{i=1}^N \alpha_i y_i =0\\ 0 \leq \alpha_i \leq C ,i = 1,2,...,N \tag{38}$

变量是拉格朗日乘子，一个变量 $\alpha_i$ 对应于一个样本点 $x_i,y_i)$ ，变量的综述等于训练样本容量N。

不失一般性，假设选择的两个变量是 $\alpha_1,\alpha_2$ ，其他变量 $\alpha _i, i=3,4,...,N$ 是固定的。于是SMO的最优化问题可写成
$min_{\alpha_1，\alpha_2} \quad W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}\alpha_1^2 +\frac{1}{2}K_{22}\alpha_2^2 + y_i y_j K_{12}\alpha_1 \alpha_2 -(\alpha_1 +\alpha_2) +y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1}+ y_2\alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2}\\ s.t. \quad \alpha_1y_1 +\alpha_2y_2 = -\sum_{i=3}^N \alpha_i y_i = \delta \\ 0 \leq \alpha_i \leq C ,i = 1,2 \tag{39}$
其中， $K_{ij} - K(x_i,x_j),i,j=1,2,...,N,\delta$ 是常数。

输入：训练数据集 $T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中， $x_i \in X =R^n，y_i \in Y = \{+1,-1\},i=1,2,...,N$

输出：近似解 $\hat{\alpha}$

（1）取初值 $\alpha^{(0)} = 0$ ，令k=0;

（2）选取优化变量 $\alpha_1^{k},\alpha_2^k$ ，解析求解公式39的两个变量的最优化问题。求得最优解 $\alpha_1^{k+1},\alpha_2^{k+1}$ ，更新 $\alpha$ 为 $\alpha^{k+1}$ :

（3）若精度 $\epsilon$ 范围内满足停机条件
$$
\sum_{i=1}^N \alpha_i y_i = 0,0\leq \alpha_i \leq C,i=1,2,…,N\
y_i \cdot g(x_i) =\left{
\begin{matrix}
\geq 1 ,{x_i|\alpha_i = 0}\
= 1 ,{x_i|0<\alpha_i < C}\
\leq 1 ,{x_i|\alpha_i = C}\
\end{matrix}

\right.
$$

其中，
$g(x_i) = \sum_{j=1}^N \alpha_j y_j K(x_j,x_i)+b$
则转第（4），否则令k=k+1,转第（2）

（4）取 $\hat{\alpha} = \alpha^{k+1}$

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

基于Java+Vue的企业移动培训考学系统：为企业数字化培训降本增效（整套代码）

永洪数据分析社区

《财务报表分析指南》企业财务透视必备：解读财务报表、深度解析财务报表分析方法、财务指标体系指南···

财务报表分析的重要性不言而喻。如果说，比重法和相关比率法旨在建立或计算各种财务指标或经济指标，确定各项财务和经营结构，或会计项目结构，那么，因素替代法就是对其中的综合性指标或项目作进一步的内部结构分析，即对影响或决定综合指标或项目的各项因素及其对综合指标或项目的影响程度作出测定和评价。财务报表的趋势分析法，是根据企业连续几年的财务报表，比较有关项目的数额，以求出其金额和百分比增减变化的方向和幅度，