学习目标:

完成第一个分析任务的前提下完成第二项


学习内容:

(1) 统计页面浏览量(每行记录就是一次浏览)
(2)统计各个省份的浏览量(需要解析IP)
(3)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)
【注】为什么要进行ETL操作?
没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageld (topicld对应的页面lId)、country、province、city


学习时间:

  • 6.7日早八点半–下午四点半

遇到的bug:

导入qqwry.dat文件,运行代码时显示找不到IP信息地址,IP信息将无法显示

解决方法:

将qqwry.dat文件部署在集群上,而不是直接拖拽进入idea

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐