数据挖掘与数据分析(二)——探索性数据分析EDA(单因子与对比分析) & 可视化(2)—— 数据分类(定类定序定距定比)&单属性分析(异常值分析&对比分析&结构分析&分布分析)
数据分类数据分类我们正常情况下最直观的是把数据分为连续变量与离散变量,但是这种分类有些粗糙统计学上把数据分为4类,以这4类认识和处理数据,可以获得较大程度的方便定类(类别):根据事物离散、无差别属性进行的分类定序(顺序):可以界定数据的大小,但不能测定差值定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点定比(比率):可以界定数据大小,可测定差值,有绝对零点单属性分析异常值分析:离散异
·
数据分类
数据分类我们正常情况下最直观的是把数据分为连续变量与离散变量,但是这种分类有些粗糙
统计学上把数据分为4类,以这4类认识和处理数据,可以获得较大程度的方便
- 定类(类别):根据事物离散、无差别属性进行的分类
- 定序(顺序):可以界定数据的大小,但不能测定差值
- 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点
- 定比(比率):可以界定数据大小,可测定差值,有绝对零点
单属性分析
异常值分析:离散异常值,连续异常值,常识异常值
对比分析:绝对数与相对数,时间、空间、理论维度比较
结构分析:各组成部分的分布与规律
分布分析:数据分布频率的显式分析
异常值分析
①连续异常值
②离散异常值
离散属性定义范围外的所有值均为异常值
③知识异常值
在限定知识与常识范围外的所有值均为异常值
对比分析
- 绝对数比较 & 相对数比较
- 时间维度比较 & 空间 & 理论维度比较
结构分析
一个总体的组成结构方面的差异与相关性
结构分析可以看作对比分析中的比例相对数的比较
- 静态结构分析
- 动态结构分析
分布分析
更多推荐
所有评论(0)