(6)数据分析-方差分析
1、前言方差分析又称为F检验,用于检验两个及两个以上样本均数的差异性,方差分析主要考虑各组之间的均数差别。如果多个样本不是全部来自同一个总体,那么观察之与总体的平均值之差的平方和成为变异。总变异可以分解为组间变异和组内变异。比如说,男性收入的方差为组内变异,男性收入与女性收入差异为组间变异。其统计量等于组间均方差除以组内均方差。F=MS组间MS组内F=\frac{MS_{组间}}{MS_{组内}}
·
1、前言
方差分析又称为F检验,用于检验两个及两个以上样本均数的差异性,方差分析主要考虑各组之间的均数差别。如果多个样本不是全部来自同一个总体,那么观察之与总体的平均值之差的平方和成为变异。总变异可以分解为组间变异和组内变异。比如说,男性收入的方差为组内变异,男性收入与女性收入差异为组间变异。其统计量等于组间均方差除以组内均方差。
F = M S 组 间 M S 组 内 F=\frac{MS_{组间}}{MS_{组内}} F=MS组内MS组间
2、使用场景
方差分析的前提也是数据要满足正态分布,且方差齐性。比如说研究学历X对收入的影响Y,X可分为中学a,高中b,大学c三组数据。对三组数据做方差分析,分析Y在X的不同分组下是否存在差异。
3、例子
from scipy import stats
a = stats.norm.rvs(loc=10,scale=10,size=500)
b = stats.norm.rvs(loc=10,scale=12,size=500)
c = stats.norm.rvs(loc=10,scale=14,size=500)
print(stats.f_oneway(a,b,c))
#F_onewayResult(statistic=347.0569269092173, pvalue=1.4648946102113372e-124)
结果分析:
- 统计量:统计量较大,说明组间差异较大。
- p-value:p-value < 0.05 说明 原假设不同学历对收入影响无差异 不成立。
故认为以上三组数据存在统计学差异,但不能判断是那两组之间存在差异。方差齐性检验使用的stats.levene函数只能检验两组数据,而stats.f_oneway函数可以检验两组及两组以上数据。
注:以上数据仅做实验用处,不具有真实性。
更多推荐


所有评论(0)