实验五、数据挖掘之产品预测任务

数据挖掘

忆南、

446人浏览 · 2022-11-24 21:26:19

忆南、 · 2022-11-24 21:26:19 发布

这里写自定义目录标题

一、实验目的

1. 学会利用决策树、KNN与Navie Bayes完成预测任务

二、实验工具

1. Anaconda

2. sklearn

3. Pandas

三、实验内容

产品预测任务

1.任务描述（数据在知新教管平台“学习资源-常用工具“里面）

本次比赛主要是一个对进出口交易记录数据进行产品判别的任务。本次任务有 19046 条数据记录，其中的 18279 条记录是有类别属性的，可作为分析时的训练样本，而任务目标是对 767 条测试数据（即验证样本）进行判别。

1) 数据描述

已分类的训练样本提供在比赛题目下 Excel 附件中的 cck_train 表中，训练样本的详情如下，其中，表格中的每条记录包含 7 个字段。

未分类的验证样本提供在比赛题目下 Excel 附件中的 cck_test 表中。验证样本的信息如下，表格中的每条记录包含 5 个已知属性字段，其中表中属性内容与 cck_表略有不同，具体属性字段的含义请参考下节描述。

2) 属性描述

本次任务提供的样本数据包含 7 个基础属性字段，其中有 2 个连续型数值类属性字段为：Quality and Price，5 个离散型数值类属性字段为：Enterprise（560）、Destination（144）、Origin（131）、Custom（20）、Product（364）。各字段具体含义如下：
Quality:表示每条交易记录中交易产品的数量，可忽略单位。
Price:表示每条交易记录中交易产品的平均价格，单位为元。
Enterprise（560）:表示每条交易记录中交易产品的供应商编码。
Destination（144）:表示每条交易记录中交易产品的买方国家编码。
Origin（131）: 表示每条交易记录中交易产品的原产地编码。
Custom（20）: 表示每条交易记录中交易产品通关海关编码。
Product（364）: 表示每条交易记录中交易产品的名称类别。
在验证样本中的字段 Product1 ,Product2 ,Product3 为参赛者进行分类预测后概率由大到小排名
前 3 名的产品类别，字段编码同 Product 字段。

3) 样本描述

不论是在训练样本还是验证样本中，我们可以看到，一条交易记录数据包括 Enterprise（560）、
Destination（144）、Origin（131）、Custom（20）、Product（364）5 个基本属性字段，括
号内为每个属性下包含的所有特征值个数，而这些属性将是我们学习训练样本得到分类模型的关
键，根据一条交易记录的每个属性的特征值的出现情况，利用模型对验证样本的交易产品类别进
行分类预测。

2. 结果评价

在整个验证样本预测结果中，参赛者在第 i 条记录的产品类别预测值与实际类别完全一致时可得
10 分，即预测结果字段 Product1 为实际产品类别。产品类别预测值与实际类别不一致时，其中
如果预测结果 Product2 为实际产品类别的，参赛者在该条验证样本可得 2 分；如果预测结果
Product3 为实际产品类别的，该条验证样本可得 1 分，对整个 767 条验证样本预测结果加总得
到一个总分 S：（本实验采用期中的20个样本）。
取 F=S/P*100%
（其中 P 为所有验证样本类别预测结果均与实际结果相一致的总成绩，即 P=7670）为每位参与者的模型评价得分，各位参与者模型得分由高到低依次排列。

cckstrain.xls
CCKStest3 .xlsx

四、实验要求

1. 写出摘要，即简要阐述任务的完成情况。

1.利用pandas读取Excel内容，

2.对其切片，取前1-8列的属性质，转换为数组结构

3.对第八列的值为标签，进行处理

4.在处理数据时，遇到error，使用LabelEncoder对字符型数据进行编码转换得以解决

5.对DataFrame的操作，最终实现了数据的处理，并将预测的产品类别保存在excel表格中。

2. 给出任务完成方案。可以用框图等方式。

（1）分类
在这里插入图片描述
(2)预测
预测是指建立两种或者两种以上变量之间相互依赖的函数模型，然后进行预测或者控制.
(3)实现过程

3. 给出具体的任务实现步骤。

首先，基于Excel样本来训练出一个分类预测模型；其次，利用测试集检测模型质量；然后，用这个模型进行预测；最后，回归分析。

4. 给出任务完成结果，结果写到实验报告系统中，用表格的形式。

在这里插入图片描述

（由于本人技术有限，上述得到的结果是有些出入的，下方贴出来的是正确的的预测结果，望有能力的师傅评论点拨指正）

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

销售数据分析方法、如何写好一个专题分析报告、Hive大数据知识体系教程、大数据分析平台总体架构方案……| 本周精华...

▲点击上方卡片关注我，回复“8”，加入数据分析·领地，一起学习数据分析，持续更新数据分析学习路径相关资料~（精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~）回复“小飞象”，领取数据分析知识大礼包。关注微信公众号：木木自由，更多产品、运营与数据分析干货以及经验分享【数据分析-领地】知识星球，每周会产生大量精华内容，每周将整理《数据分析-领地：一周星球内参》，让你不错过任何一

永洪数据分析社区

Web报表软件的集成方案

报表开发只是应用程序中的一部分，而非全部，因此Web报表软件的集成性就显得非常重要了。　传统的Web报表软件无一例外地都提供了一个独立的报表服务器。采用独立服务器时的，应用结构如下图：　采用独立服务器的不便：• 独立的报表服务器，与应用程序的沟通是通过网络协议，严重降低性能；• 无法享受应用服务器的各项优势功能，包括集群能力、连接池的管理...