1 领域的现状
数据挖掘的应用现在比较多。但是有关 Simpson悖论的确没有见到过。可是它确实存在于挖掘的结果中。这样就有可能对我们的认知产生错误的或者不完全正确的结论。所以觉得有必要进行探讨研究。
 
2 研究方向的理论意义和使用价值分析
根据 Simpson悖论的实例,我们可以确实感受到其对我们数据挖掘结果正确性的影响。使用价值上在于提供更准确的结论。
 
3 待研究和探索的技术和方法
研究 Simpson在数据挖掘的哪些挖掘方法上可能产生,并提供消除悖论结果的方法。
 
知识点的认识和理解:
首先,我们来了解一下 Simpson悖论:
Simpson 悖论在实际工作中确实发生,并且你应该警惕它们的出现。这种悖论会悄悄躲过你的法眼,尤其是当你只能看到总数据,而没有机会接触到原始、没有结合的数据。这里有一组拼凑起来的数据,但是数据的来源场景是真实的。这个实际的例子出现在 P.J.Bickel, E.A.Hammel 和 J.W.O''Connell 的文献“研究生录取的性别偏差:Berkeley 的数据”(1975)。
考虑一个大学的研究生院的数据(图1)。这个数据显示向这个大学申请的 9000 个男性中的 4000 人被录取进行研究生学习( 44.4% ),而 4500 个女性之中只有 1500 个被录取( 33.3% )。这个案例是不是证明了性别不平等呢?不见得。图 1 中的数据是该大学 4 个系录取数据的整合。看看描述各个系的原始数据的图2 。从这个数据中来看,你会发现在每个系女性被录取的比例比男性都要高!很明显,图2 中未整合的数据比图 1 中整合的数据更好的描述了录取率。尽管这只是现实事件的一个很大简化,你还能看到 Simpson 悖论是很难发现的。
 
录取的人数
拒绝的人数
录取率
男性
4000
5000
44.4%
女性
1500
3000
33.3%
图1 整合后的研究生院录取数据
 
男性
女性
录取的人数
拒绝的人数
录取率
录取的人数
拒绝的人数
录取率
A
2000
2400
45%
400
450
47%
B
1200
1000
55%
100
80
56%
C
700
900
44%
600
730
45%
D
100
700
13%
400
1740
19%
总计
4000
5000
 
1500
3000
 
图2 原始的研究生院录取数据
  Simpson 悖论从数学上来说确实不是一种真正的悖论。一个数学悖论产生一个逻辑上不一致的答案,而 Simpson 悖论的结论是奇怪的、意料之外的,但是却是能够得到解释的。如果想深入研究,网上有很多关于 Simpson 悖论的资料。给我们的启示是,当检查测试结果数据的时候,要先怀疑这些数据是不是从其他原始资料整合而来的。如果是,那么应该看看原始未经整合的数据。
 
其次,在上述的数据中,假设数据库表:性别、系别、录取字段。如果我们使用关联规则挖掘方法,我们假设设定的支持度为0.01,而可信度为0.1。这样的数据设置我们就可以发现所有上述的挖掘结果都有效。但是从上述结果中,我们到底选择哪一个为正确的结果呢。从图一的挖掘结果我们认为男性获得了更高的录取率,但事实上添加条件根据图2我们确发现女性获得更高的录取率。如果我们仅从图一的挖掘结果得出的结论就会获得错误的结论。这是我们不想见到的。所以对他们的研究是有必要的。而且这其中还有各种各样的变化等。比如在图2中有可能出现个别的男性比女性录取率高的情况,这样我们又应该如何判断等问题。还有数据挖掘的相关设置等也可能产生影响,比如上述我们的支持度和可信度值的设置也有可能产生影响。如果我们设定可信度为0.4,则女性的关联就不会被认可等问题。
 
最后,在上述分析下。可以在以下方面进行研究:
(1)    Simpson悖论的讨论分析
(2)    数据挖掘(关联规则)算法的改进提高
(3)    应用系统开发
(4)    实际的分析(最好有实践应用分析)
(5)    总结展望
 
 
Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐