R语言数据分析案例38-高等教育学生成绩分析(多元线性回归)
高等教育学生成绩分析(多元线性回归)
一、研究背景
学生成绩是衡量教育质量的重要指标,同时也是教育工作者进行教学反思和改进的重要依据。随着现代教育的不断发展,各类学科课程的设置日益多样化,学生的学习表现也呈现出复杂多样的特征。为了深入了解学生在各门课程中的表现,找出影响学生成绩的关键因素,有必要对学生成绩数据进行详细的分析和研究。。。。
二、研究意义
优化教学策略,通过对学生成绩数据的分析,可以帮助教育工作者识别出哪些课程是学生的强项和弱项,从而有针对性地调整教学方法,提高教学效果。
资源分配,了解各门课程对学生成绩的影响,可以帮助学校合理分配教育资源。例如,可以加强对重点课程的支持,提供更多的教学资源和培训机会。。。。
三、实证分析
读取数据集,并展示前五行
# 读取数据
file_path <- "成绩1.xlsx"
data <- read_excel(file_path, sheet = "Sheet1")
data
head(data,5)
从原始数据可以看出,该数据集包含学生的学号和多门课程的成绩。数据框有35列,每行代表一个学生的记录。主要课程有西方经济学、高等数学(两个部分)、基础会计、国际贸易实务、世界海运地理、国际金融实务、商务英语中级等。
接下来查看数据的缺失情况并可视化
ggplot(missing_data, aes(x = reorder(variable, -missing_count), y = missing_count)) +
geom_bar(stat = "identity", fill = "steelblue") +
coord_flip() +
labs(title = "缺失值数量条形图", x = "变量", y = "缺失值数量") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5) # 标题居中
)
图中可以看到,有些变量的缺失值数量较多,例如基础德语,商务英语中级,而有些变量没有缺失值。接下来用均值填充缺失值
可以看见现在已经不存在缺失值,接下来对数据进行描述性统计分析:
该描述性统计分析涵盖了多个课程的成绩数据,提供了每门课程成绩的最小值、第一四分位数、中位数、平均值、第三四分位数和最大值。例如西方经济学最小值:60.00第一四分位数:60.00中位数:60.00平均值等等。。。。
接下来选择几个主要变量进行分析:
# 绘制箱线图
ggplot(data_filled, aes(y = 西方经济学)) +
geom_boxplot(fill = "steelblue", color = "black") +
labs(title = "西方经济学 箱线图", y = "西方经济学") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5) # 标题居中
)
主要展示了成绩的分布、中心趋势和离群值情况。箱线图中的粗线代表成绩的中位数,接近于60分。箱体的上下边界分别代表第一四分位数和第三四分位数,约为60分和70分。。。
该图显示了高等数学课程成绩的密度分布情况,主要展示了成绩在不同分数段的分布密度。图中显示了高等数学成绩在不同分数段的密度分布情况。
# 绘制直方图
ggplot(data_filled, aes(x = 基础会计)) +
geom_histogram(binwidth = 5, fill = "blue", color = "black", alpha = 0.7) +
labs(title = "基础会计直方图", x = "基础会计", y = "频数") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5) # 标题居中
)
从直方图可以看出,基础会计的成绩分布存在两个明显的高峰。较多的学生成绩集中在60分附近,而另一个高峰在70分到80分之间。。。
成绩分布在60分到90分之间,表明所有学生的国际海洋货物运输成绩均在这个区间内。小提琴图显示了成绩在不同分数段的密度分布情况。图形中部较窄,两端逐渐变宽,形成一个漏斗形状。。。。
成绩被分为四个区间:60-70分、70-80分、80-90分和90-100分。大多数学生的成绩集中在60-80分之间,占了大部分的学生人数。。。
接下来选择部分日常重要课程对平均分做多元线性回归模型,具体回归结果如下:
# 构建回归公式
formula <- as.formula(paste(target_var, "~", paste(important_features, collapse = " + ")))
print(formula)
# 建立线性回归模型
lm_model <- lm(formula, data = data_filled_no_id)
# 打印模型摘要
summary(lm_model)
回归模型为:
这表明截距 (Intercept):29.32891,在所有自变量(课程成绩)都为零的情况下,平均成绩为29.32891。西方经济学:0.10093表明,每增加1分西方经济学成绩,平均成绩增加0.10093分。等等,而且。。。
接下来对模型进行检验:
模型残差检验的结果如下:
Shapiro-Wilk检验的p值大于0.05,表示残差符合正态分布。
# 绘制残差图
par(mfrow=c(2, 2))
plot(lm_model)
该图包含四个不同的图表,用于对线性回归模型的残差进行诊断。分别为“残差 vs 拟合值”、“Q-Q图”、“规模-位置图”和“残差 vs 杠杆图”。
接下来进行多重共线性检验:
library(car)
vif_values <- vif(lm_model)
# 打印VIF值
print("VIF值:")
print(vif_values)
# 判断是否存在共线性
if (any(vif_values > 10)) {
print("存在多重共线性问题")
} else {
print("不存在多重共线性问题")
}
从结果可以看出,不存在多重共线性(VIF值大于10通常被认为存在多重共线性问题。否则不存在共线性问题。)
四、结论
通过对学生多门课程成绩的数据分析,我们发现了以下几个主要结论:
不同课程的成绩分布存在显著差异。描述性统计分析揭示了各课程成绩的基本情况,包括最小值、最大值、平均值和四分位数等。线性回归分析结果表明,西方经济学、国际贸易实务、国际海洋货物运输等课程对学生的平均成绩具有显著影响。。。。
创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)
更多推荐
所有评论(0)