数据挖掘算法(四)--线性回归
给定一个数据集{yi,xi1,...,xip}ni=1\{y_i,x_{i1},...,x_{ip}\}_{i=1}^{n} ,线性回归模型主要是为了找到变量yiy_i 和向量XX的线性关系。This relationship is modeled through a disturbance term or error variable εi — an unobserved random var
1、简单线性回归
简单线性回归是一个线性回归模型。一个独立变量和一个因变量,目的是找到的因变量和自变量之间的线性函数,尽可能准确地,预测因变量的值作为自变量的函数。这是常见的做法是:利用最小二乘方法使得残差(数据集的点和拟合线之间的垂直距离)最小化。找到残差最小时的拟合曲线即为我们要找的结果。
假设拟合曲线为:
这样我们的目标就是找到斜率 β1 和 y 轴截距
下面是求解过程:
令 y∗=yi−β1xi 可以将上式简化为
要使得上式最小化,只有 β0 等于 y∗ 的平均值的时候才能使得上式最小。
将 β0 代入原始式子得到
令 yi^=yi−y¯ 和 xi^=xi−x¯
同上面 β0 的道理, xi^β1 等于 yi^ 的均值时上式最小,这样的得到 β1 的解:
2、线性回归
给定一个数据集
{yi,xi1,...,xip}ni=1
,线性回归模型主要是为了找到变量
yi
和向量
X
<script type="math/tex" id="MathJax-Element-1946">X</script>的线性关系。
This relationship is modeled through a disturbance term or error variable εi — an unobserved random variable that adds noise to the linear relationship between the dependent variable and regressors. Thus the model takes the form
待续。。。
参考资料:
1、https://en.wikipedia.org/wiki/Simple_linear_regression
2、https://en.wikipedia.org/wiki/Linear_regression
更多推荐
所有评论(0)