生产实习Day04---大数据分析实例
完成第一个分析任务的前提下完成第二项。
·
学习目标:
完成第一个分析任务的前提下完成第二项
学习内容:
(1) 统计页面浏览量(每行记录就是一次浏览)
(2)统计各个省份的浏览量(需要解析IP)
(3)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)
【注】为什么要进行ETL操作?
没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageld (topicld对应的页面lId)、country、province、city
学习时间:
- 6.7日早八点半–下午四点半
遇到的bug:
导入qqwry.dat文件,运行代码时显示找不到IP信息地址,IP信息将无法显示
解决方法:
将qqwry.dat文件部署在集群上,而不是直接拖拽进入idea
更多推荐
所有评论(0)