数据挖掘算法（四）--线性回归

给定一个数据集{yi,xi1,...,xip}ni=1\{y_i,x_{i1},...,x_{ip}\}_{i=1}^{n} ，线性回归模型主要是为了找到变量yiy_i 和向量XX的线性关系。This relationship is modeled through a disturbance term or error variable εi — an unobserved random var

程序员学编程

1480人浏览 · 2017-10-08 21:32:35

程序员学编程 · 2017-10-08 21:32:35 发布

1、简单线性回归

简单线性回归是一个线性回归模型。一个独立变量和一个因变量，目的是找到的因变量和自变量之间的线性函数，尽可能准确地，预测因变量的值作为自变量的函数。这是常见的做法是：利用最小二乘方法使得残差（数据集的点和拟合线之间的垂直距离）最小化。找到残差最小时的拟合曲线即为我们要找的结果。
假设拟合曲线为：

y = β 0 + β 1 x

$y=\beta_0+\beta_1x$
这样我们的目标就是找到斜率

β1 $\beta_1$ 和

y $y$ 轴截距

β0 $\beta_0$ ,换成数学表达式就是找到

β0 $\beta_0$ 和

β1 $\beta_1$ 使得下面的表达式最小：

m i n \sum i = 1 n {y i - (β 0 + β 1 x i)} 2

$min \sum_{i=1}^{n}\{y_i -(\beta_0+\beta_1x_i)\}^2$
下面是求解过程：

= \sum i = 1 n {y i - (β 0 + β 1 x i)} 2

$=\sum_{i=1}^{n}\{y_i -(\beta_0+\beta_1x_i)\}^2$

= \sum i = 1 n {y i - β 1 x i - β 0} 2

$=\sum_{i=1}^{n}\{y_i -\beta_1x_i-\beta_0\}^2$
令

y∗=yi−β1xi $y^*=y_i-\beta_1x_i$ 可以将上式简化为

= \sum i = 1 n {y * - β 0} 2

$=\sum_{i=1}^{n}\{y^*-\beta_0\}^2$
要使得上式最小化，只有

β0 $\beta_0$ 等于

y∗ $y^*$ 的平均值的时候才能使得上式最小。

β 0 = \sum y * i n = \sum ( y i - β 1 x i ) n = y ¯ - β 1 x ¯

$\beta_0=\frac{\sum y_{i}^{*}}{n}=\frac{\sum (y_{i}-\beta_1x_i)}{n}=\overline{y}-\beta_1\overline{x}$
将

β0 $\beta_0$ 代入原始式子得到

= \sum i = 1 n {y i - β 1 x i - y ¯ + β 1 x ¯} 2

$=\sum_{i=1}^{n}\{y_i -\beta_1x_i-\overline{y}+\beta_1\overline{x}\}^2$

= \sum i = 1 n {y i - y ¯ - (x i - x ¯) β 1} 2

$=\sum_{i=1}^{n}\{y_i -\overline{y}-(x_i-\overline{x})\beta_1\}^2$
令

yi^=yi−y¯ $\hat {y_{i}}=y_i-\overline{y}$ 和

xi^=xi−x¯ $\hat {x_{i}}=x_i-\overline{x}$

=∑i=1n{yi^−xi^β1}2

$=\sum_{i=1}^{n}\{\hat {y_{i}}-\hat {x_{i}}\beta_1\}^2$
同上面

β0 $\beta_0$ 的道理，

xi^β1 $\hat {x_{i}}\beta_1$ 等于

yi^ $\hat {y_{i}}$ 的均值时上式最小，这样的得到

β1 $\beta_1$ 的解：

β 1 = \sum y i ^ x i ^ \sum x i ^ 2 = \sum ( y i - y ¯ ) ( x i - x ¯ ) \sum ( x i - x ¯ ) 2

$\beta_1=\frac { \sum \hat {y_i} \hat {x_i} } {\sum \hat {x_i}^2}=\frac{\sum (y_i-\overline{y})(x_i-\overline{x})}{\sum (x_i-\overline{x})^2}$

β 1 = \sum ( y i - y ¯ ) ( x i - x ¯ ) / ( n - 1 ) \sum ( x i - x ¯ ) 2 / ( n - 1 )

$\beta_1=\frac{\sum (y_i-\overline{y})(x_i-\overline{x})/(n-1)}{\sum (x_i-\overline{x})^2 /(n-1)}$

β 1 = c o v ( y , x ) c o v ( x , x ) = c o v ( y , x ) v a r ( x )

$\beta_1=\frac {cov(y,x)}{cov(x,x)}=\frac {cov(y,x)}{var(x)}$

2、线性回归

给定一个数据集 $\{y_i,x_{i1},...,x_{ip}\}_{i=1}^{n}$ ，线性回归模型主要是为了找到变量 $y_i$ 和向量 X <script type="math/tex" id="MathJax-Element-1946">X</script>的线性关系。
This relationship is modeled through a disturbance term or error variable εi — an unobserved random variable that adds noise to the linear relationship between the dependent variable and regressors. Thus the model takes the form

待续。。。

参考资料：
1、https://en.wikipedia.org/wiki/Simple_linear_regression
2、https://en.wikipedia.org/wiki/Linear_regression

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

【金融风控-贷款违约预测】数据挖掘学习：1.赛题理解

学习目标理解赛题数据和目标，清楚评分体系。完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程。了解赛题赛题概况比赛地址：https://tianchi.aliyun.com/competition/entrance/531830/introduction比赛要求参赛选手根据给定的数据集，建立模型，预测金融风险。赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平

永洪数据分析社区

智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么？”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因，业务人员会通过使用多维查询、dashboard等数据产品锁定问题，再辅助人工分析查找问题原因，这个过程通常需要一天时间。几乎每种业务角色的用户都在做相似的分析，但在业务方分析人员发生工作变动时，分析方法难以得到较好传承。因此我们需要一款自动给出分析结论的智能化数据产品来解决上面的问题，

永洪数据分析社区

数据挖掘实验一：分类技术——二分网络上的链路预测

实验一：分类技术——二分网络上的链路预测实验内容采用二分网络模型，对ml-1m文件夹中的“用户—电影”打分数据进行建模，考虑将用户信息、电影详细信息、以及打分分值作为该网络上的边、点的权重；根据网络结构特征给出节点相似性度量指标；基于相似性在二分网络上进行链路预测；画出ROC曲线来度量预测方法的准确性。分析及设计导入数据并初步分析处理数据：观察所给的文件类型为.dat格式，即纯文本格式，pytho