
2024年大数据分析那点事(3)
同比是指与,该指标反映的是相对情况,,该指标主要反映的是事物逐期发展的情况。,但两者反映的变化内涵是完全不同的。一般来说,环比可以与环比相比较,而不能拿同比与环比相比较;而对于同一个地方,考虑时间纵向上发展趋势的反映,则往往要把同比与环比放在一起进行对照。三、数据分析方法论=========
-
同比是指与历史同时期进行比较得到的数值,该指标反映的是相对情况,环比则是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况。
-
-
两者所反映尽管都是变化速度,但两者反映的变化内涵是完全不同的。一般来说,环比可以与环比相比较,而不能拿同比与环比相比较;而对于同一个地方,考虑时间纵向上发展趋势的反映,则往往要把同比与环比放在一起进行对照。
三、数据分析方法论
=========
-
数据分析方法论与数据分析法的区别:数据分析方法论主要是用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如从哪些方面展开的数据分析,即从宏观角度来指导如何进行数据分析,更像是一个数据分析的一个前期规划,来指导后续工作的展开,而数据分析方法则是指具体的分析方法,比如我们常见的对比分析、交叉分析、相关分析、回归分析、聚类分析等等,数据分析法主要从微观来对数据进行分析
-
举个简单的例子:什么是数据分析方法论?对一个城市的规划书就是一个方法论,因为他是为城市的发展来指引前进的方向,而在具体的实施过程中需要不同部门不同专业的人士来进行具体部分的操作,这就是分析方法
-
**数据分析方法论的重要性:**为什么说数据分析方法论很重要那,在我们进行一些分析的时候是不是也会产生疑问,我的分析完整么?有说服性么?合理么?这就是为什么说数据分析方法论很重要的原因,只有在具体的理论和业务知道的情况下,才能确保我么的分析是合理有效的。
-
数据分析方法论的几个作用:
-
可以帮助我们理清楚分析的思路,确保分析过程的体系化
-
可以看出问题之间的关系
-
为数据分析的开展指引方向和确保分析结果的有效准确合理性
常用的数据分析方法论
-
常见的营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等等
-
常见的管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则,其中比较经典实用的主要有:PEST分析法、5W2H、逻辑树、4P、用户使用行为
3.1PEST分析法
- PEST分析法用于对宏观环境进行分析。宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。对宏观环境因素做分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治( Political)、经济( Economic )、技术(Technological )和社会 (Social )这四大类影响企业的主要外部环境因素进行分析,这种方法简称为PEST分析法。
* **政治环境**:包括国家社会制度、政府方针、政策、法令,**构成政治环境的关键指标有:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平、政府补贴水平、民众对政治的参与度等等。**
* **经济环境:**经济环境主要包括**宏观和微观**两个方面的内容,**宏观主要是指**国家的国民收入、国内生产总值及其变化情况,以及通过这些指标反映的国民经济发展水平和发展速度。**微观经济环境**主要指企业所在地区和所服务地区的消费者的收入水平等,**构成经济环境的关键指标主要有:GDP增长率、进出口额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等等**
* **社会环境:**社会环境包括一个国家或地区的居民受教育程度和文化水平、宗教信仰、风俗习惯、价值观念、审美观点等。**构成社会文化环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。**
* **技术环境:**技术环境除了要考察与企业所处领域直接相关的技术手段的发展变化外,**还应及时了解**:国家对科技开发的投资和支持重点、该领域技术发展动态和研究开发费用总额、技术转移和技术商品化速度、专利及其保护情况等。**构成技术环境的关键指标主要有:新技术的发明、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等。**
3.2 5W2H分析法
- 5w2H分析法是以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,**即何因( why )、何事( what )、何人 ( who )、何时( When )、何地( where ) 、如何做(How )、何价( How much ),**这就构成了5W2H分析法的总框架

- 5w2H分析法操作简单方便、易于理解,通常应用于企业营销、管理活动,对于决策和执行活动有很大的帮助,可以弥补考虑问题中的疏漏,帮助建立数据分析的框架
- 比如对用户购买行为的分析
3.3 逻辑树分析法
- 逻辑树分析法,又称为麦肯锡逻辑树,其最大的优势在于,将繁杂的数据工作细分为多个关系密切的部分,不断地分解问题,帮助人们在纷繁复杂的现象中找出关键点,推动问题的解决。逻辑树是分析问题常使用的一种工具,他将各种问题进行罗列。从最高层开始,逐步向下发展,把一个已知的问题看作树干,考虑这个问题与其他问题的相关性,有助于在分析过程中快速理清思路,避免进行重复和无关的思考,逻辑树的使用需要遵循以下原则:
* **要素化**:把相同问题总结归纳成要素
* **框架化**:将各个要素组织成框架,遵守不重不漏的原则
* **关联化**:框架内的各要素要保持必要的相互关系
* 
3.4 4P营销理论
- 4P营销理论产生于20世纪60年代的美国,它是随着营销组合理论的提出而出现的。营销组合实际上有几十个要素,这些要素可以概括为4类,产品( Product )、价格( Price )、渠道( Place )、促销( Promotion ),即著名的4P营销理论。
3.5 用户使用行为理论
- 用户使用行为是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后使用,再决定是否继续消费使用,最后成为核心用户,
3.6 数据分析方法论小结
-
PEST分析理论主要用于行业分析。
-
4P分析理论主要用于公司整体经营情况分析。
-
逻辑树分析理论可用于业务问题专题分析。
-
用户使用行为理论的用途较单一,就是用于用户行为研究分析。
-
5w2H分析理论的用途相对广泛,可用于用户行为分析、业务问题专题分析等。
虽然上述的方法论一般用于解决的分析问题不同,但是可以进行嵌套使用,比如用逻辑树来搭建分析框架,从4P的角度进行分析等等,最关键的是一定要具体问题具体分析!
四、常用的数据分析工具
===========
-
工欲善其事,必先利其器。熟练掌握一个数据分析工具可以事半功倍的解决问题。数据分析工具有多种,它们的使用都离不开数据获取、数据处理、数据分析、数据展现这几方面常用的数据分析工具如Excel、sPSS、R、Python等
-
Excel是日常工作中最常用的一款工具之一,它是Microsoft公司的-款电子表格软件,拥有直观的界面、出色的计算功能和图表工具,是目前最流行的数据处理、分析工具。它可以进行各种数据处理、数据分析和数据可视化,甚至也可以用于报告撰写,广泛地应用于运营、管理、分析、财务、金融等众多领域,它的特点就是简单、易用,缺点则是数据存储有限、计算速度慢,扩展功能少。
-
-
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(Solutions Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、数据分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。其优点主要有:操作简便、功能强大、数据兼容。
-
-
R语言 R是一种免费、自由的编程语言,所以也称为R语言(其Logo 如图1-19所示),它由统计学家发明和发展,R解决的问题只有一个,就是如何挖掘数据价值的问题。R是一款强大的数据统计分析、数据可视化工具。其特点有免费开源、绘图功能强大、程序包丰富,但是对新手友好度不高,入门门槛比较高。同时同Python相比R计算速度较慢
-
Python是一种免费、自由的编程语言,所以也称为Python语言,可以称得上既简单又功能强大的编程语言,它可用于软件、游戏、Web开发以及运维,当然也可以应用于数据分析、数据挖掘、数据可视化等,是一款强大的数据分析、数据挖掘工具。随着人工智能技术的流行,Python语言越来越普及。
-
出于对方法的优缺点和普及性的选择,本文选取基础的EXCEL和Python作为主要分析工具
五、理解数据
======
-
常用的数据类型可以归结为两大类:字符型与数据型和逻辑性,
-
字符型数据是不具有算术运算能力的文本数据类型**。它包括中文字符、英文字符、数字字符(非数值型)等字符。**字符型数据属于分类数据,即可以按字符型数据进行分类统计,如按性别分类统计,按部门分类统计,按姓名分类统计。
-
数值型数据表示数量,是可进行算术运算的数据类型**。是否可用算术方法进行运算,是区分数据类型的重要特征。**数值型数据属于一种特殊分类数据,即可以按数值型数据进行分类统计,如按每个年龄值进行分类统计,按每个收入值进行分类统计,不过类别值越多,其分类就越细,通常也就越难发现潜在规律。所以对数据值型数据进行分类统计,一般先将数值型数据进行分区间处理,再按区间段进行分类统计。
-
逻辑型数据只有TRUE 和 FALSE两种,分别代表是和否
-
在Excel中**,一般情况下,字符型数据在单元格中默认靠左对齐,数值型数据在单元格中默认靠右对齐,逻辑型数据默认居中显示。**
-
**常见的数据处理方法包括:**数据清洗、数据合并、数据抽取、数据计算、数据转换几大类方法
- 数据清洗:主要是将多余的数据进行筛选清除,将缺失的数据补充完整,常用的数据清洗方法主要有重复数据处理、缺失数据处理、空格数据处理。
5.1****重复数据处理:
-
编号 B667708 B310882 B520304 B776477 B356517 B466074 B466074 B776477 B776477 B667708 -
如我们有目前的这一个编号,我们怎么进行去重?
-
Excel函数法去重
-
COUNTIF函数–COUNTIF 是一个统计函数,用于统计满足某个条件的单元格的数量;
-
countif(区域,条件),在B2输入=COUNTIF(A:A,A2)表示在A行中共有多少个A2元素,在c2中输入C2 =COUNTIF(A$2:A2,A2),代表从第一个元素开始该单元格共出现了几次
编号 | 重复标记 | 前n个数据中有n个当前数据 |
B667708 | 2 | 1 |
B310882 | 1 | 1 |
B520304 | 1 | 1 |
B776477 | 3 | 1 |
B356517 | 1 | 1 |
B466074 | 2 | 1 |
B466074 | 2 | 2 |
B776477 | 3 | 2 |
B776477 | 3 | 3 |
B667708 | 2 | 2 |
肯定有小伙伴会问了,此时怎么得到不重复的数据那,这么做有什么意义那,此时我们只需要将C列进行筛选,筛选为1的值,即为不重复数据。
Excel高级筛选法查重
在Excel数据高级筛选中选择不重复的记录
Excel条件格式法查重
在开始选项卡中点击条件格式选择突出显示单元格原则,选择重复值
数据透视表法查重
用数据透视表统计各数据出现的频次,出现两次以上认为该数据属于重复数据
- 找出重复数据
使用python–pandas包下的duplicated函数
DataFrame.duplicated(subset=None, keep=‘first’)
- **subset:**取得一列或列标签列表。默认值为无。传递列后,它将仅将它们视为重复项。
**keep:**控制如何考虑重复值。它只有三个不同的值,默认值为“第一”。
**->**如果为“第一个”,则它将第一个值视为唯一值,并将其余相同的值视为重复值。
**->**如果为“ last”,则它将last值视为唯一值,并将其余相同的值视为重复值。
**->**如果为False,则将所有相同的值视为重复项。
data.duplicated() #返回布尔型数据,告诉重复值的位置
df.duplicated.sum() #说明重复值的总数
data[data.duplicated()] #打印重复值
重复数据删除
- 1、使用EXCEL菜单栏里的删除重复值将重复的数据删除掉
- 2、使用python–pandas包下的duplicated函数删除重复值将重复的数据删除掉
#inplace=True表示直接在源数据上进行操作
data.drop_duplicates(inplace=True)
5.2 缺失数据处理
在数据处理过程中,缺失值的存在是不可避免的,缺失值过多反映在数据收集过程中出现问题,将直接影响到最终数据分析的准确性,缺失数据在总数据的10%以下方是可以接受的标准
对缺失值的处理一般采用批量填充
对于上述表格想要快速填充空值应该怎么做那?CTRL+G定位条件中选择空值,选上后输入公式(本例中单点一下“张三”即可),在CTRL+ENTER进行批量填充
可以看到所有的空值全部被选择上了
批量填充完毕
空格处理
可以采用TRIM函数 TRIM(TEXT)可以删除文本前后的空格,而保留文本中间的空格
在Python中删除字符串中所有空格有:使用replace()函数、使用split()函数+join()函数、使用Python正则表达式,正则表达式可以查看(Python-正则表达式总结+常用示例)
数据合并
- 通常数据表中现有的数据字段难以满足我们所有的数据分析需求,我们可以对现有的字段进行数据合并、数据抽取、数据计算或者数据转换等处理,形成数据分析所需要的新字段。数据合并是指综合数据表中某几个字段的信息或不同记录数据,将它们组合成一个新字段、新记录数据,常用的操作有字段合并、字段匹配。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
数据转换等处理**,形成数据分析所需要的新字段。数据合并是指综合数据表中某几个字段的信息或不同记录数据,将它们组合成一个新字段、新记录数据,常用的操作有字段合并、字段匹配。
[外链图片转存中…(img-WZvei15Z-1714638758075)]
[外链图片转存中…(img-HeRvnzEn-1714638758075)]
[外链图片转存中…(img-RZMBUrfb-1714638758076)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
更多推荐
所有评论(0)