数据挖掘与预测分析 读书笔记(三)
注:课后问题一、探索性数据分析和假设检验差异:1基本思想不同探索性因子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度。验证性因子分析的主要目的是决定事前定义因子的模型拟合实际数据的能力,以试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。2应用前提不同探索性因子分析之前,不必知道要用几个因子,以及各因子和观测变量之间的关系。在进行探索性因子
一、探索性数据分析和假设检验差异
二、为什么要进行探索性数据分析
三、x2统计量
四、拟合优度检验(一致性检验)
五、独立性检验
六、列联表的两个相关测量指标
七、补充列联表和列联表统计推断
八、IQR和Z-score的优缺点
注:课后问题
一、探索性数据分析和假设检验差异:
1基本思想不同
探索性因子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度。
验证性因子分析的主要目的是决定事前定义因子的模型拟合实际数据的能力,以试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。
2应用前提不同
探索性因子分析之前,不必知道要用几个因子,以及各因子和观测变量之间的关系。在进行探索性因子分析时,由于没有先验理论,只能通过因子载荷凭知觉推断数据的因子结构。
验证性因子分析则是基于预先建立的理论,要求事先假设因子结构,其先验假设是每个因子都与一个具体的指示变量子集对应,以检验这种结构是否与观测数据一致。
3理论假设不同
探索性因子分析的假设主要包括:①所有的公共因子都相关(或都不相关);②所有的公共因子都直接影响所有的观测变量;③ 特殊(唯一性)因子之间相互独立;④ 所有观测变量只受一个特殊(唯一性)因子的影响;⑤ 公共因子与特殊因子(唯一性)相互独立。
验证性因子分析克服了探索性因子分析假设条件约束太强的缺陷,其假设主要包括:① 公共因子之间可以相关,也可以无关;② 观测变量可以只受一个或几个公共因子的影响,而不必受所有公共因子的影响;③特殊因子之间可以相关,还可以出现不存在误差因素的观测变量;④ 公共因子与特殊因子之间相互独立。
4主要应用范围不同
探索性因子分析主要应用于三个方面:①寻求基本结构,解决多元统计分析中的变量间强相关问题;② 数据化简;③发展测量量表。
验证性因子分析主要应用于以下三个方面:① 验证量表的维度或面向性(dimensionality),或者称因子结构,决定最有效因子结构;② 验证因子的阶层关系;③ 评估量表的信度和效度。
参考:
探索性因素分析与验证性因素分析的差异 - 知乎 (zhihu.com)
二、为什么要进行探索性数据分析:
探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。
三、x2统计量:
列联表去检验变量间的拟合优度和独立性检验,分类数据和顺序数据都可以作为定类数据,数值型数据可以转换为定性数据
四、拟合优度检验(一致性检验):
五、独立性检验:
六、列联表的两个相关测量指标:(分为2*2和大于2*2的列联表)
参考
统计学 第8章 列联分析 - MBA智库文档 (mbalib.com)
七、补充列联表和列联表统计推断
统计推断
卡方分布基于大样本,下面看一个小样本例子
多维列联表R语言 用table(), prop.table(), addmargins() 边际频数表
参考
八、IQR和Z-score的优缺点
Z-Score优点:简单易计算,不需要加载包,能够应用于数值型的数据,可以消除量级给分析带来的不便。
Z-Score缺点:计算Z-Score依赖总体的平均值与方差,但是这个在真实的分析与挖掘中很难直接得到甚至不知道数据均值和方差,大多数情况下也是是用抽样的样本的均值与标准差替代。z-score是减均值再除以标准差,得到的结果不一定是正态分布,需要用Q-Q图判断。
IQR优点:反应离散程度和离群值比标准差衡量要好因为摆脱离群值的影响,离群值对标准差(误差平方之后会放大影响)影响很大。
IQR缺点:相比Z-Score更受单位不统一的影响,是看数值去分析的。
更多推荐
所有评论(0)