【课程作业】数据挖掘之具有定性变量的回归模型
具有定性变量的回归模型作业要求
·
参考资料
R语言解读多元线性回归模型(很详细,nice)
【R】多元线性回归(综合,nice)
R语言 逐步回归分析(介绍了逐步回归)
经典推荐 | 逐步回归分析法及其应用
显著性检验(语言生动易懂,nice)
《统计学习导论-基于R应用》第三章:线性回归(贴合作业要求,nice)
具有定性变量的回归模型
作业要求
流程与代码
原始数据:400条,11列(11个属性)
library(MASS) #加载库
library(ISLR) #安装库install.packages("ISLR")
library(car) #测试:有此行才能运行后面的vif(tlm) 多重共线性检验
#Introduction to statistical learning中的ISLR package
#fix(Carseats) # 查看Carseats数据集
#names(Carseats) # 查看数据集的列名
#?Carseats # 查看数据集的更多信息
#多元线性回归
tlm<-lm(Sales~., data = Carseats) #~后面的. 表示用上全部变量
summary(tlm) #查看回归结果(最后一列*,没有*的变量即没有显著关系,应当去掉)
#逐步回归,自动排除不显著的变量
tstep<-step(tlm)
summary(tstep)
#逐步回归的优化
drop1(tstep)
#再:多元线性回归
tlm<-lm(Sales~CompPrice+Income+Advertising+Price+ShelveLoc+Age, data = Carseats)
#显著(有*)的变量:CompPrice+Income+Advertising+Price+ShelveLoc+Age
summary(tlm)
tlm
# 自动将定性变量转变为虚拟变量,并通过contrasts()返回虚拟变量的编码
attach(Carseats)
contrasts(ShelveLoc)
#变量的多重共线性
vif(tlm)#方差膨胀因子。一般认为,当0<VIF<10,不存在多重共线性(注意:在《R语言实战》第2版P182中认为VIF>4就存在多重共线性);当10≤VIF<100,存在较强的多重共线性,当VIF>=100,多重共线性非常严重。vif是判断多重共线性的比较常用方法。
#残差分析和异常点检测(判断方法见下图)
par(mfrow=c(2,2))
plot(tlm)
运行结果
更多推荐
所有评论(0)