职业院校技能大赛 大数据应用与服务交流群:q743959419

目录

模块二:数据获取与处理

任务一:数据获取与清洗

子任务一:数据获取

子任务二:数据处理

任务二:数据标注

任务三:数据统计 

        子任务一:处理异常数据


  • 模块二:数据获取与处理

  • 任务一:数据获取与清洗

  1. 子任务一:数据获取

(1)用python脚本工具打开parse_athlete_events.py文件,补全文件中【1】代码,配置公共资源地址url。提交url地址代码;
代码截图:【1】

(2)使用浏览器打开赛题资源中静态资源文件athlete_events.html网页文件,通过“审查”工具进行网页结构分析。补全parse_athlete_events.py中【2】代码,实现获取奥运会运动员数据和奖牌成绩div列表。提交补全代码;
代码截图:【2】

(3)补全parse_athlete_events.py中【3】~【5】代码,实现“text”,“举办城市”和“代表队伍”文本内容提取。提交补全代码;
代码截图:【3】~【5】

  1. 子任务二:数据处理

(1)查看athlete_events.csv中数据总数、标准差、均值、最小值、四分之一分位数、二分之一分位数、四分之三分位数和最大值。提交代码截图和结果截图;

代码截图:

结果截图:

(2)对athlete_events.csv文件进行处理,对于Age列数据,采用“Age”填充缺失值,并将年龄数字大于90的数据删除,然后存入athlete_events_c1.csv中。提交代码截图;

代码截图:

结果截图:

  • 任务二:数据标注

打开本地开发工具,编写Python代码,对athlete_events_c3.csv进行标注,判断运动员是否获得奖牌,具体的标注规则如下:

(1)如果“Medal”列数据不为空,则数据标注为“yes”;

(2)如果“Medal”列数据为空,则数据标注为“no”;

标注好的数据存储为列“Have_Medal”并和athlete_events_c3.csv数据合并存入result.csv。提交代码截图和csv文件;

代码截图:

  • 任务三:数据统计 

  1. 子任务一:处理异常数据

打开竞赛平台赛题资源的文件资源的ZZ40-P2-M2-T3文件分类,下载TravelInsurancePrediction.csv文件。该文件存储了旅游保险预测相关数据,数据中有以下内容:

0Age:年龄,int类型

1EmploymentType:职业种类,varchar类型

2GraduateOrNot:是否毕业生,varchar类型

3AnnualIncome:年收入,int类型

4FamilyMembers:家庭成员,int类型

5ChronicDiseases:是否有慢性病,int类型

6FrequentFlyer:是否经常坐飞机,varchar类型

7EverTravelledAbroad:曾经出国旅游,varchar类型

8TravelInsurance是否购买旅游保险,int类型

编写MapReduce程序,实现以下功能:清除曾经有出国旅游的人员数据,在控制台按顺序打印输出前30条数据,输出结果到HDFS,使用命令查看结果。提交代码截图和结果截图;

代码截图

map:

reduce:

结果截图:

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐