1. 描述性分析

    • 集中趋势度量
      • 均值:将所有数据相加后除以数据的个数。适用于数据分布比较均匀,没有极端值的情况。例如,计算一个班级学生的平均成绩。
      • 中位数:将数据按照大小顺序排列后,位于中间位置的数值。如果数据个数是奇数,则中位数是中间的那个数;如果是偶数,则是中间两个数的平均值。它不受极端值的影响,适合描述有偏态分布的数据,比如在统计城市居民收入时,中位数能更好地反映中等收入水平。
      • 众数:数据集中出现次数最多的数值。用于描述数据的典型值,比如在统计鞋店销售的鞋子尺码时,众数能反映最畅销的尺码。
    • 离散程度度量
      • 方差和标准差:方差是每个数据点与均值之差的平方和的平均数,标准差是方差的平方根。它们衡量了数据的分散程度,标准差越大,数据越分散。例如,比较两个班级学生成绩的稳定性,标准差小的班级成绩更稳定。
      • 极差:数据集中最大值与最小值的差值,简单直观地反映了数据的跨度。
    • 分布形态度量
      • 偏度:描述数据分布的不对称性。正偏态表示右侧(较大值一侧)有长尾,负偏态表示左侧(较小值一侧)有长尾。例如,在分析收入分布时,往往呈现正偏态,少数高收入者拉高了右侧的尾巴。
      • 峰度:衡量数据分布的尖峭程度或扁平程度。高峰度表示数据分布更尖峭,低峰度表示更扁平。
  2. 探索性数据分析(EDA)

    • 数据可视化
      • 柱状图:用于比较不同类别之间的数据大小。例如,比较不同品牌手机的市场占有率。
      • 折线图:展示数据随时间或其他连续变量的变化趋势。如展示股票价格在一段时间内的走势。
      • 饼图:呈现各部分占总体的比例关系。比如分析公司各部门的预算占比。
      • 箱线图:显示数据的分布情况,包括中位数、四分位数、最大值和最小值,还能发现异常值。常用于比较不同组的数据分布,例如比较不同年龄段人群的收入分布。
      • 散点图:用于观察两个数值变量之间的关系,如研究身高和体重之间的线性关系。
    • 相关性分析
      • Pearson 相关系数:用于衡量两个连续变量之间线性关系的强度和方向,取值范围在 - 1 到 1 之间。接近 1 表示强正相关,接近 - 1 表示强负相关,接近 0 表示几乎没有线性关系。例如,分析学习时间和考试成绩之间的相关性。
      • Spearman 等级相关系数:不依赖于变量的具体数值,而是基于变量的等级顺序来计算相关性,适用于非正态分布或存在有序分类变量的数据。比如分析比赛名次和评委评分之间的相关性。
  3. 推断性分析

    • 假设检验
      • t 检验:用于比较两组样本的均值是否有显著差异。例如,检验新药物组和安慰剂组的平均治疗效果是否不同。
      • 方差分析(ANOVA):用于比较多个组之间的均值差异。比如比较不同教学方法下学生的平均成绩是否有差异。
      • 卡方检验:主要用于检验两个分类变量之间是否存在关联。例如,检验性别和产品购买偏好之间是否有关联。
    • 回归分析
      • 简单线性回归:建立一个自变量和一个因变量之间的线性关系模型,用于预测和解释。如根据广告投入预测产品销售额。
      • 多元线性回归:考虑多个自变量对一个因变量的影响,建立线性方程进行预测和分析。例如,综合考虑价格、促销活动、品牌形象等因素对产品销量的影响。
      • 逻辑回归:用于处理因变量是分类变量(通常是二分类)的情况,如预测客户是否会购买产品(是 / 否)。
  4. 数据挖掘方法

    • 分类算法
      • 决策树:通过构建树状结构来进行分类决策。例如,根据客户的年龄、收入、购买历史等因素来判断客户是否会流失。
      • 支持向量机(SVM):寻找一个最优超平面来划分不同的类别,在高维数据和小样本数据分类中表现较好。
      • 朴素贝叶斯分类器:基于贝叶斯定理,假设各个特征之间相互独立,用于文本分类、垃圾邮件过滤等场景。
    • 聚类分析
      • K - means 聚类:将数据划分为个簇,使得簇内的数据点尽可能相似,簇间的数据点尽可能不同。例如,对客户进行聚类,以便进行个性化营销。
      • 层次聚类:通过构建层次结构来进行聚类,有凝聚式和分裂式两种方式。可以直观地展示聚类的层次关系。
    • 关联规则挖掘
      • Apriori 算法:用于挖掘数据集中频繁出现的项集和关联规则。例如,在超市销售数据中发现 “购买面包的顾客同时购买牛奶的概率较高” 这样的关联规则。
Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐