python数据分析(一):列联分析与方差分析
<此部分理论内容结合统计学教材学习>列联分析1. 收集样本数据产生二维或多维交叉列联表;2. 对两个分类变量的相关性进行检验(假设检验)pandas.crosstab(index,columns,margins,normalize)- margins默认为False不带合计数据- normalize=True频率列联表salary_reform.scv结果为列联表补充的内容列联表的期望
<此部分理论内容结合统计学教材学习>
列联分析
1. 收集样本数据产生二维或多维交叉列联表;
2. 对两个分类变量的相关性进行检验(假设检验)
pandas.crosstab(index,columns,margins,normalize)
- margins默认为False不带合计数据
- normalize=True频率列联表
salary_reform.scv
结果为列联表
补充的内容
列联表的期望分布
根据比例求出的各个变量的期望值
RT为给定单元所在行的合计,CT为给定单元所在列的合计,n为样本量
卡方检验
- 当样本量较大时,上述统计量服从自由度为(r-1)(c-1)的卡方分布
- 用于衡量实际值与理论值的差异程度(有差异表示自变量对因变量有影响)
- 返回值:统计量,p值,自由度
- p值:可以理解为落在极端值上的概率
- 计算方法:已知统计量的值,求对应卡方分布的概率,过大则拒绝原假设(独立)
如何理解p值:假设是我们提出的假设,数据是真实的数据,我们要用真实的数据去检验假设,在假设原假设是真的的前提下,真实的数据发生的概率就是p值,如果这个概率很小,就说明我们的假设有问题,要拒绝原假设。
课堂练习一
作列联表
期望值分析
卡方检验
结果分析:p值较小,说明race对于工资水平的影响很显著
方差分析
比较多个总体的均值是否相等;
研究一个或多个分类型自变量与一个数值型因变量的关系;
假设:
(1)每个总体都应服从正态分布(如何检验样本是否服从正态分布?);
(2)各个总体的方差必须相同;
(3)观测值是独立的。
单因素方差分析
方差齐性检验levene
H0: , H1: 不全相等(自变量对因变量有显著影响)
构建统计量F检验
SST:总平方和;SSA:组间平方和;SSE:组内平方和
;
若原假设成立,则表明没有系统误差,组间方差MSA与组内方差MSE的比值不会太大,F>Fa,拒绝原假设
方差来源分析及检验过程anova_lm()
运算符 | 说明 |
+ | 将运算符左右两边的数据都纳入生成的数据集中 |
- | 将运算符左边的纳入,右边的移除 |
: | 计算运算符两边的交集(交互效应),生成一列数据 |
* | a+b+a:b形式的简写 |
关系强度的测量
组间误差占总误差比例越高,相关度越高
多重比较
通过对总体均值之间的两两比较来检验哪些均值之间存在差异
LSD检验
已知总体方差的联合估计量
组内方差
k = 2时,
构造统计量:
若,认为差异是显著的,拒绝原假设。
HSD检验
基于学生化极差的成对比较。
计算HSD统计量,如果两组均数的差异大于该极差,认为差异是显著的,拒绝原假设。
HSD检验较LSD检验更保守,更不易发现显著差异,一般用于样本容量相同的组之间的均值比较
多因素方差分析
不存在交互效应的多因素方差分析
tv.csv
结果解释:“品牌”的p值过小,拒绝“品牌”的原假设,可认为品牌对销售量有显著影响。
存在交互效应的多因素方差分析
traffic.csv
结果解释:路段对通行时间有显著影响;时段对通行时间有显著影响;没有证据表明路段和时段的交互作用对通行时间有显著影响。
更多推荐
所有评论(0)