网络流量大数据分析平台(2)
紧接上一篇博客,来说一下整个流量系统的数据流及业务导向。一、数据流根据当前的需求分析,总结有以下几种:1.原始pcap的存储以及搜索及下载。这个很好理解,乙方这边希望可以依靠我们的平台将原始的流量数据存储起来,同时呢,比如说这个包有问题,或者说这个包有价值,需要进一步分析,这时候也希望我们提供一个搜索及下载的功能。所以,这个需求就对应了一条数据流向:如上图所示,设计如下:原始流量数据存储至hdfs
·
紧接上一篇博客,来说一下整个流量系统的数据流及业务导向。
一、数据流
根据当前的需求分析,总结有以下几种:
1.原始pcap的存储以及搜索及下载。这个很好理解,乙方这边希望可以依靠我们的平台将原始的流量数据存储起来,同时呢,比如说这个包有问题,或者说这个包有价值,需要进一步分析,这时候也希望我们提供一个搜索及下载的功能。
所以,这个需求就对应了一条数据流向:
如上图所示,设计如下:
原始流量数据存储至hdfs,hdfs比较适合存储大文件。同时为每一个包动态生成索引,并存储至es中,当用户需要去查询或者下载的时候,就可以直接通过es找到对应的hdfs的存储位置。
2.已知的协议数据
如前文所说,已知协议都是嵌套的JSON数据。所以很好办了,直接在Flink中解析入库至es中。
3.未知协议数据
未知协议待补充。
好了,终于说完了整个系统的宏观。接下来记录一下细节部分。
二、系统搭建
首先就是搭建这样一套系统了。自然是网上搜索各种教程,不过最后总结一下,还是官网比较靠谱。
分为以下三个部分:
1.环境准备
2.组件安装
3.健康检查
为了后续的重复利用,这边直接写了自动化脚本来实现重复安装。
1.环境准备
未完待续。。。。(有时间就写几句)
更多推荐
所有评论(0)