【数据挖掘软件 weka】第二部分 评估
https://www.youtube.com/watch?v=LcHw2ph6bss&list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD这是由新西兰Waikato大学提供,关于如何使用weka进行数据挖掘的在线学习课程。
一、构建分类器
以系统自带的segment challenge数据集为例,使用树分类器中的用户分类器(如果没有用户分类器看本文最后)。
在Test options中选择使用测试数据集,选择系统自带的segment test。
选择合适的X轴、Y轴属性以达到将各数据区分的效果(如本数据集的X:region-centroid-row;Y:intensity-mean),通过矩形选择红色的部分,并submit。该部分区域消失,获得被调整的图形和第一代决策树。
按此方法循环,最终获得完整的决策树,右键选择接受决策树,可查看构建的决策树评估效果。
二、训练和测试
继续使用之前的数据集,使用J48决策树分类器,在Test options中选择训练集测试集比例,获得测试结果,同比例再次运行后准确率相同。
如果使用训练集自我评估,准确率较大但不准确,结果过于乐观。
三、重复训练和测试
当训练集测试集比例相同时,之前每次运行获得的结果是相同的,如果想做到随机即运行结果不同,可以设置随机种子,点击More options,更改Random seed的数值后,同比例继续运行,准确率不同。
多次运行后进行平均值和标准差,即为J48的评估效果。
四、基线精确度
以系统自带的diabetes数据集为例,使用J48分类器可以得到76%的精确度。使用贝叶斯分类器的NaiveBayes分类器并运行,获得77%的精确度。使用懒惰分类器的精确度为73%,而规则分类器中的PART分类器有74%的精确度。
ZeroR分类器找到可能最大的分类器,一直猜该分类,则该分类器准确率为最大的数目比例。
该分类器的精确度即为基线精确度,可用于评估分类器的精确度,如supermarket数据集中,很多分类器的效果不如基线精确度。
不要盲目的使用weka分析任意的数据,需要知道自己在做什么
五、交叉验证
将数据集分为十份,九份作为训练集,一份作为测试集,重复十次,即十折交叉验证(针对数据集少的情况)。
六、交叉验证结果
在分类界面的Cross-validation中对Folds的数值进行修改,选择k折交叉验证的取值。
七、没有UserClassifier分类器的安装方法
关闭除weka首页外的窗口,点击weka首页的tools,点击package manager,搜索并点击左上方的安装即可。
更多推荐
所有评论(0)