数据分析的作用和常见方法

常见分析方法

对比分析

对比分析相关概念

对比分析,是指将两个或者两个以上的数据进行比较,分析它们的差异,从而揭示事物发展、变化情况和规律的方法。

做数据分析,有时需要依据指标从不同的维度进行对比分析,才能得出有效结果。

只有通过事物发展的数量质量两大方面的指标,从横比纵比角度进行全方位对比分析,才能全面了解事物发展的情况与规模。

指标相关概念

指标是用于衡量事物发展程度的一种量化工具,例如人口数、GDP、收入、利润率、流失率等。

指标可以分为绝对数指标和相对数指标。

绝对数指标主要用来反映事物的规模大小,也就是我们的常说的数量(Quantity)、规模。

相对数指标是指两个或两个以上有联系的统计指标值的比值,用来反映事物的发展程度、结构、强度等,也就是我们常说的质量(Quality)

维度相关概念

维度指的是事物或现象的某种特征,相当于我们常常说的分析角度,如产品类型、用户类型、地区、时间、性别、年龄、收入等都是维度。

时间是一种常用、特殊的维度,在时间维度上的对比通常被称为纵比比如我们常常听说的同比、环比、定基比等。

不同国家人口数、GDP的对比,不同省份收入的对比,不同公司、不同部门之间的销售额对比,这些都是横比

维度可以分为定性维度定量维度

描述性分析

描述性分析相关概念

描述性分析,也称描述性统计分析,它是对数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,主要包括数据的集中趋势分析、离散程度分析、频数分布分析等,常用的统计指标有计数、求和、平均值、最小值、最大值、标准差、方差等。

函数

       Excel中对应的函数分别为Count(计数)、Sum(求和)、Average(平均值)、Min(最小值)、Max(最大值)、Stdev.p(标准差)、var.p(方差)。

数据透视表

将价格拖入值,右键值字段设置选择对应的计算类型,修改标题;也可以双击字段名进入值字段设置。想将数据透视表中的数值保持相同的格式,可以右键数字格式设置格式,再右键刷新。

分组分析

分组分析相关概念

分组分析

      分组分析,是一种根据分组字段将分析对象划分成不同的部分,以对比分析各组之间的差异性的分析方法。

分组的目的

      分组目的,就是将总体中不同性质的对象分开,将相同性质的对象合并,保持各组内对象性质的一致性、组与组之间性质的差异性,以便进一步进行各组之间的对比分析。

分组类型

     根据分组字段的数据类型划分,分组类型主要包括两种:定性分组定量分组

     定性分组:根据事物的固有属性划分的分组,如性别、学历、地区等属性。

     定量分组:数值分组,将数值型数据进行等距或不等距分组,如年龄段、收入段。

简单分组统计

统计不同出版社商品的平均价格,根据出版社分组。

分组排序统计

统计出版社商品数前五的结果。

插入数据透视表,拖入出版社拖到行,商品编号拖到值,值字段设置选择计数就可以统计各个出版社的商品数量,右键排序-降序,筛选按钮-值筛选-前10项-修改成前五项。

分组去重统计

统计客户的下单数。

常规法

选中订单编号和客户姓名两列复制,选择数据-删除重复值-插入数据透视表-选择计数

PowerPivot

插入数据透视表-勾选将此数据添加到数据模型,此时值字段设置中会出现“非重复计数”。

函数

=SUMPRODUCT(ISTEXT(UNIQUE(FILTER(表3[订单编号],表3[客户姓名]=[@客户姓名])))*1)

先用FILTER函数筛选出每个客户对应的订单编号,再用UNIQUE函数去除重复值,用ISTEXT判断订单编号是不是文本,是文本返回逻辑值TRUE,*1将逻辑值转换为数值,如果是TRUE*1=1,再用SUMPRODUCT函数将数值相加就得到了每个客户的下单数,这里用SUM也可以。

在处理求积再求和的逻辑时候,SUMPRODUCT逻辑会更清晰。

结构分析

结构分析相关概念

是指在分组分析的基础上,计算各组成部分占总体的比重,进而分析总体的内部构成特征的一种分析方法。

这里的分组主要是指定性分组,一般需要关注结构,其重点在于各部分占整体的比重,例如性别结构、地区结构。

总计的百分比

插入数据透视表,拖入销售人员、产品名称作为行标签,将金额两次拖入值字段,一个求和,一个右键选择值显示方式,选择总计的百分比。

父行汇总的百分比

值显示方式选择父行汇总百分比。每个销售人员的百分比总和都为100%,19.99%是该销售人员销售额占总销售额的占比。

父级汇总的百分比

值显示方式选择父级汇总的百分比。每个销售人员的百分比总和都为100%,但是每个销售人员的销售额占比是销售人员销售金额的百分比是基于自身计算的百分比,不是基于总销售额。

分布分析

分布分析相关概念

分布分析,是一种根据分析目的将数值型数据进行等距或不等距分组,从而研究各组数据分布规律的分析方法。

分布分析也是以分组为基础的,这个分组主要是指定量分组,而定量分组一般关注分布,例如用户消费分布、用户收入分布、用户年龄分布等。

价格分组

数据透视表

统计各个价格区间的商品数量。

插入数据透视表,将价格拖入行,商品编号拖入值,将鼠标放在价格段右键组合,设置参数。

函数

用VLOOKUP函数,这里是模糊匹配。

日期分组

将日期按季度月度分组。

插入数据透视表,右键组合,选择月、季度。想取消组合可以右键取消组合。

取消总计可以右键删除总计,更新时保持单元格列宽不变可以右键数据透视表选项,不勾选更新时自动调整列宽。

交叉分析

交叉分析相关概念

交叉分析,通常用于分析两个或两个以上分组变量之间的关系,以交叉表的形式进行变量间关系的对比分析。

交叉分析的原理,就是从数据的不同维度综合进行细分,以进一步了解数据的结构、分布特征。

交叉分析的分组变量,可以是定量分组与定量分组、定量分组与定性分组、定性分组与定性分组两两组合,只要有助于发现并解决问题即可。

数据透视表

统计每个出版社各个价格区间的商品数量。

插入数据透视表,把出版社拖到行,价格段拖到列,商品编号拖到值,选择计数。价格段没有按照升序排序,可以选中[100,正无穷],移动鼠标,变成十字之后拖动到最后,或者选中之后右键移动,选择移动到末尾。

还可以计算商品数量的行汇总百分比,右键值显示方式选择行汇总百分比,很多百分比都为0,可以选择开始-样式-条件格式-突出显示单元格规则-等于-输入0在选择自定义格式-颜色选择白色,这样就可以只显示非零的百分比。还可以选择条件格式,选择色阶,通过颜色深浅看出哪个出版社哪个价格段的商品数量最多。

矩阵分析

矩阵分析相关概念

交叉分析的定义

        交叉分析,通常用于分析两个或两个以上分组变量(维度)之间的关系,以交叉表的形式进行变量间关系的对比分析。

矩阵分析的定义

        矩阵分析,是一种将事物的两个重要属性(指标)作为依据进行关联分析,找出解决问题思路的分析方法,也称矩阵关联分析、象限图分析。

数据透视表

统计各个省份的人均月消费和人均月流量。

插入数据透视表,cost,flow拖入值,选择平均值。

PowerQuery

统计每个大区的人均月消费和人均月流量。

将省份表和大区表,合并查询为一张新表,关闭并上载至选择数据透视表,再将大区拖到到行,cost,flow拖动到值,选择平均值。如果cost或flow的数值更新,只要选中数据透视表右键刷新就可以更新数据。

转化分析

转化分析相关概念

转化分析,是一种对用户使用某项业务时经过一系列关键环节之后的转化效果进行分析的方法,因为经常通过漏斗图展现转化效果,所以也称漏斗图分析

转化分析是针对业务流程诊断的一种分析方法,通过对某些关键环节转化率的分析,可以更快地发现业务流程中存在的问题。

数据透视表

计算每个行为的转化率,计算方式是67187/67187,6512/67187,2386/67187

插入数据透视表,拖到behavior到行,将uid拖动两次到值,一个选择计数,一个右键选择值显示方式-百分比,选择基本字段和基本项。

PowerQuery思路和矩阵分析一样。

RFM分析

RFM相关概念

RFM分析,指根据客户活跃程度和交易金额贡献情况进行客户价值细分的一种分析方法。RFM分析主要依据三个指标,分别为RRecency,近度)、FFrequency,频度)、MMonetary,额度)。

RFM计算过程

数据透视表

计算R、F、M指标数据

先用VLOOKUP函数从item表中匹配每个客户的交易金额,为了计算M。计算购买商品的客户的最晚的日期(MAXIFS),再计算与目标日期的天数差。

插入数据透视表,将uid拖到行,天数、item_id、交易金额拖到值,天数选择最小值即为M,item_id选择计数即为F,交易金额选择求和即为M。

计算R分值、F分值、M分值

因为R越小,R分值就越高,所以当某个用户的R小于平均值时,r_s2,否则取1

因为FM都是越大越好,所以当某个用户的FM大于平均值时,取2,否则取1

r_s 公式:=IF([@r]<AVERAGE([r]),2,1)

f_s 公式:=IF([@f]>AVERAGE([f]),2,1)

m_s 公式:=IF([@m]>AVERAGE([m]),2,1)

计算RFM分值

rfm_score=100*[@[r_s]]+10*[@[f_s]]+[@[m_s]]

根据RFM分值细分客户

用数据透视表再用VLOOKUP函数匹配。

留存分析

留存分析相关概念

留存分析是用来分析用户参与、活跃程度的一种方法。

留存率一方面可以用于衡量产品对用户的价值高低,另一方面可以衡量用户的质量高低。

函数

1-  筛选2020/1/1~2020/1/6登录且登录类型为1(1代表新增)的数据,复制粘贴到新增表;

2-  在新增表中新增关键字段,计算公式为:=[@用户编号]&"@"&[@登录日期]

3-  在登录表中新增字段1是否登录、关键字段,公式分别为:

       1日:=[@登录日期]-1

       是否登录:=1

       关键字段:=[@用户编号]&"@"&[@1]

4- 在新增表中新增是否登录

     公式为:=IFERROR(VLOOKUP([@关键字段],登录表1,6,0),0)

5-  基于新增表用数据透视表分析。

数据透视表选择行汇总百分比。

生命周期价值分析

生存周期价值分析相关概念

         LTV(Life Time Value)就是用户生命周期价值,指从获取用户到用户流失期间,用户为产品带来的全部收益总和。     

         生命周期价值分析是衡量用户对产品所产生价值的一种方法。

         常用的LTV统计指标有:

         新增用户LTV1、新增用户LTV7、新增用户LTV15、新增用户LTV30

计算流程及逻辑

函数

统计 2020 年 12 月 1 日至 2020 年 12 月 6 日每日新增用户的 LTV7。

先用VLOOKUP函数把新增日期匹配到表格,再计算新增日期与购买日期的天数差。

再用UNIQUE函数取出日期,用COUNTIFS函数计算新增用户数

新增日期:=VLOOKUP([@用户编号],新增表,2,FALSE)

日期:=UNIQUE(新增表[登录日期])

新增用户数:=COUNTIFS(新增表[登录日期],事件表!I2)

计算消费金额,如果是计算LTV1,那么间隔天数应该为0,就等于K1-1,如果是LTV2,就是L1-1,所以要固定行。

消费金额:=SUMIFS($E:$E,$F:$F,$I2,$G:$G,"<="&(K$1-1))

LTV:=SUMIFS($E:$E,$F:$F,$I2,$G:$G,"<="&(K$1-1))/$J2

趋势分析

相关概念

预测分析是一种根据事物的已知信息,运用各种定性和定量的分析理论和方法,对事物未来发展的趋势和水平进行判断和推测的方法。预测分析常用的方法可以分为定性预测定量预测

定性预测是指预测者依靠业务知识、具有丰富经验和综合分析能力的人员与专家,根据已掌握的历史资料和直观材料,运用个人的经验和分析判断能力,对事物的未来发展做出性质和程度上的判断。定性预测的主要方法有德尔菲法主观概率法等。

定量预测法是一种运用数学工具对事物规律进行定量描述、预测其发展趋势的方法。定量预测 分为数值预测分类预测。 

预测工作表

数据-预测-预测工作表-选择要预测的时间

趋势线

插入散点图-选择数据-选中散点右键添加趋势图-选择R方最高的趋势线,勾选显示公式,显示R平方值,根据公式预测。

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐