数据挖掘知识集锦
(原创作者:陈玓玏) 关于数据挖掘的定义七七八八的,但是总的来说,数据挖掘是从海量数据中挖掘有用的行为模式等信息,帮助智能化的决策。 关于数据挖掘的步骤,也有很多划分,这里作者且大胆地按照自己的理解划分一下吧,分为需求理解、结果定义、数据收集、数据清洗、数据划分、特征提取、特征选择、...
(原创作者:陈玓玏)
关于数据挖掘的定义七七八八的,但是总的来说,数据挖掘是从海量数据中挖掘有用的行为模式等信息,帮助智能化的决策。
关于数据挖掘的步骤,也有很多划分,这里作者且大胆地按照自己的理解划分一下吧,分为需求理解、结果定义、数据收集、数据清洗、数据划分、特征提取、特征选择、模型选择、效果评估、模型监控、模型优化等步骤。这个是一个相对来讲比较细的划分了,不过每个细分步骤的存在都是有它的理由的。
1. 需求理解(数据挖掘服务于特定业务或决策需求);
2. 结果定义(知道在决策中什么情况可以判定为好,什么情况应该判定为坏);
3. 数据收集(根据想要做的决策,收集相关的业务数据);
4. 数据清洗(将数据标准化、归一化、离散化);
5. 数据划分(很多分析都需要做时间窗口的划分,比如分析用户的行为特征和当前行为的状态特征,需要划分不同的时间窗口分别分析);
6. 特征提取(也就是造变量,把原始的业务数据变为更有意义的变量,通常涉及一些简单的统计,如求最大、最小、均值等);
7. 特征选择(造的变量并不是每个都与主题有那么强的关联性,而且有的变量之间存在很强的相关性,会产生冗余,而这些又会使得模型容易过拟合,因为要做归约);
8. 模型选择(这个就不用说了,模型本身就分很多种,做分类的,做聚类的,做回归的,每一种内部又存在很多模型,很多模型都有它的优缺点和适用场景,应该根据自己的业务需求、时间、样本量、数据类型等等来选择合适的模型);
9. 效果评估(评估建模的成果);
10. 模型监控(模型有时会不稳定,换一批样本量效果就大大折扣,而且数据挖掘本身就是一个探索的过程);
11. 模型优化(这个就是调参啦,交叉验证啦,还有根据自己的经验去选择新的模型,提取新的变量,都属于模型优化的范畴)。
每个步骤内部还分很多方法,比如数据的清洗涉及的标准化,包括数据处理为统一格式,替换所有的缺失值为指定的缺失对象(比如pandas中的nan类型对象),又比如特征选择所涉及的冗余分析、特征过滤等,作者把自己学到的不完整的一些内容做了分类整理,还不够完善,后期还会慢慢往里面添加,但是能让大家在学习之后有个系统的概念。如果图中有些错误或者有什么希望补充的,可以给我留言,谢谢~
下面上图。
更多推荐
所有评论(0)