
2024年全国职业院校技能大赛中职组《大数据应用与服务赛项》赛项赛题解析第二模块
对athlete_events_c2.csv文件进行处理,对于Weight列数据,小数点后超过一位数的数据,将小数四舍五入改为一位数,然后存入athlete_events_c3.csv中。(3)对athlete_events_c1.csv文件进行处理,对于Height列和Weight列数据,将缺失值的数据删除,然后存入athlete_events_c2.csv中。
职业院校技能大赛 大数据应用与服务交流群:q743959419
目录
-
模块二:数据获取与处理
-
任务一:数据获取与清洗
-
子任务一:数据获取
(1)用python脚本工具打开parse_athlete_events.py文件,补全文件中【1】代码,配置公共资源地址url。提交url地址代码;
代码截图:【1】
(2)使用浏览器打开赛题资源中静态资源文件athlete_events.html网页文件,通过“审查”工具进行网页结构分析。补全parse_athlete_events.py中【2】代码,实现获取奥运会运动员数据和奖牌成绩div列表。提交补全代码;
代码截图:【2】
(3)补全parse_athlete_events.py中【3】~【5】代码,实现“text”,“举办城市”和“代表队伍”文本内容提取。提交补全代码;
代码截图:【3】~【5】
-
子任务二:数据处理
(1)查看athlete_events.csv中数据总数、标准差、均值、最小值、四分之一分位数、二分之一分位数、四分之三分位数和最大值。提交代码截图和结果截图;
代码截图:
结果截图:
(2)对athlete_events.csv文件进行处理,对于Age列数据,采用“Age”填充缺失值,并将年龄数字大于90的数据删除,然后存入athlete_events_c1.csv中。提交代码截图;
代码截图:
结果截图:
-
任务二:数据标注
打开本地开发工具,编写Python代码,对athlete_events_c3.csv进行标注,判断运动员是否获得奖牌,具体的标注规则如下:
(1)如果“Medal”列数据不为空,则数据标注为“yes”;
(2)如果“Medal”列数据为空,则数据标注为“no”;
标注好的数据存储为列“Have_Medal”并和athlete_events_c3.csv数据合并存入result.csv。提交代码截图和csv文件;
代码截图:
-
任务三:数据统计
-
子任务一:处理异常数据
打开竞赛平台赛题资源的文件资源的ZZ40-P2-M2-T3文件分类,下载TravelInsurancePrediction.csv文件。该文件存储了旅游保险预测相关数据,数据中有以下内容:
0Age:年龄,int类型
1EmploymentType:职业种类,varchar类型
2GraduateOrNot:是否毕业生,varchar类型
3AnnualIncome:年收入,int类型
4FamilyMembers:家庭成员,int类型
5ChronicDiseases:是否有慢性病,int类型
6FrequentFlyer:是否经常坐飞机,varchar类型
7EverTravelledAbroad:曾经出国旅游,varchar类型
8TravelInsurance:是否购买旅游保险,int类型
编写MapReduce程序,实现以下功能:清除曾经有出国旅游的人员数据,在控制台按顺序打印输出前30条数据,输出结果到HDFS,使用命令查看结果。提交代码截图和结果截图;
代码截图:
map:
reduce:
结果截图:
更多推荐
所有评论(0)