数据挖掘week7
关联规则一.什么是关联规则关联规则是一种基于规则的机器学习方法,用于从数据集中寻找物品之间的隐含关系。可用来寻找购物篮数据之间的联系,方便进行交叉销售;可以进行文本挖掘;也可使用在其他领域比如生物信息学、医疗诊断、地球科学等,发现一些有趣的联系。二.关联规则的基本概率(1)关联分析(Association Analysis):在大规模数据集中寻找有趣的关系。(2)频繁项集(Frequent Ite
关联规则
一.什么是关联规则
关联规则是一种基于规则的机器学习方法,用于从数据集中寻找物品之间的隐含关系。
可用来寻找购物篮数据之间的联系,方便进行交叉销售;可以进行文本挖掘;也可使用在其他领域比如生物信息学、医疗诊断、地球科学等,发现一些有趣的联系。
二.关联规则的基本概率
(1)关联分析(Association Analysis):在大规模数据集中寻找有趣的关系。
(2)频繁项集(Frequent Item Sets):经常出现在一块的物品的集合,即包含0个或者多个项的集合称为项集。
支持度(Support):数据集中包含该项集的记录所占的比例,是针对项集来说的。
(3)置信度(Confidence):出现某些物品时,另外一些物品必定出现的概率,针对规则而言。
(4)关联规则(Association Rules):暗示两个物品之间可能存在很强的关系。形如A->B的表达式,规则A->B的度量包括支持度和置信度
(5)项集支持度:一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度,支持度反映了A和B同时出现的概率,关联规则的支持度等于频繁集的支持度。
(6)项集置信度:包含A的数据集中包含B的百分比,置信度反映了如果交易中包含A,则交易包含B的概率。也可以称为在A发生的条件下,发生B的概率,成为条件概率。
只有支持度和置信度(可信度)较高的关联规则才是用户感兴趣的。
三.目标与步骤
1、找到频繁集;
2、在频繁集中通过可信度筛选获得关联规则。
四.应用
1、Apriori算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯,比如较有名的“尿布和啤酒”的故事;
2、网络安全领域中的入侵检测技术;
3、可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;
4、也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。
五.关联规则
5.1 Ariori算法
步骤:
(1)连接:(将项集进行两两连接形成新的候选集)
利用已经找到的个项的频繁项集,通过两两连接得出候选集,注意进行连接的,,必须有个属性值相同,然后另外两个不同的分别分布在,中,这样的求出的为的候选集。
(2)剪枝:(去掉非频繁项集)
候选集中的并不都是频繁项集,必须剪枝去掉,越早越好以防止所处理的数据无效项越来越多。只有当子集都是频繁集的候选集才是频繁集,这是剪枝的依据。
5.2 FP树频集算法
步骤:
(1)构建FP树;
(2)从FP树中挖掘频繁项集;
实现流程:
输入:数据集、最小值尺度
输出:FP树、头指针表
(1)遍历数据集,统计各元素项出现次数,创建头指针表
(2)移除头指针表中不满足最小值尺度的元素项
(3)第二次遍历数据集,创建FP树。对每个数据集中的项集:
1)初始化空FP树
2) 对每个项集进行过滤和重排序
3)使用这个项集更新FP树,从FP树的根节点开始:
3.1)如果当前项集的第一个元素项存在于FP树当前节点的子节点中,则更新这个子节点的计数值
3.2)否则,创建新的子节点,更新头指针表
3.3)对当前项集的其余元素项和当前元素项的对应子节点递归3.3的过程
更多推荐
所有评论(0)