大数据处理流程
大数据处理流程:确定数据来源:采集工程师爬取到对应的数据公开的数据集购买一些商用的数据数据仓库工程师:抽取数据,将数据抽取到数据仓库中数据分析工程师:数据进行汇总分析,挖掘出企业关心的内容将数据的结果同步到mysql中web工程师进行数据的展示和呈现目标:经采集的数据结构化之后导入到数据仓库中,...
大数据处理流程:
确定数据来源:
采集工程师爬取到对应的数据
公开的数据集
购买一些商用的数据
数据仓库工程师:
抽取数据,将数据抽取到数据仓库中
数据分析工程师:
数据进行汇总分析,挖掘出企业关心的内容
将数据的结果同步到mysql中
web工程师进行数据的展示和呈现
目标:
经采集的数据结构化之后导入到数据仓库中,
难点是数据结构化
按照目录结构解析文件内容
读取到文件里的内容,提取XML指定内容
解析指定规则的文本内容
java IO
先把流程梳理出来
得到原数据文件夹的目录
获取文件夹下的目录(频道目录)
获取频道下的content和user
分别交给不同的解析器解析这些内容,解析content 解析user
边解析边写文件
先解决技术问题再解决业务问题
更多推荐
所有评论(0)