紧接上一篇博客,来说一下整个流量系统的数据流及业务导向。

一、数据流

根据当前的需求分析,总结有以下几种:
1.原始pcap的存储以及搜索及下载。这个很好理解,乙方这边希望可以依靠我们的平台将原始的流量数据存储起来,同时呢,比如说这个包有问题,或者说这个包有价值,需要进一步分析,这时候也希望我们提供一个搜索及下载的功能。
所以,这个需求就对应了一条数据流向:
在这里插入图片描述
如上图所示,设计如下:
原始流量数据存储至hdfs,hdfs比较适合存储大文件。同时为每一个包动态生成索引,并存储至es中,当用户需要去查询或者下载的时候,就可以直接通过es找到对应的hdfs的存储位置。
2.已知的协议数据
如前文所说,已知协议都是嵌套的JSON数据。所以很好办了,直接在Flink中解析入库至es中。在这里插入图片描述
3.未知协议数据
未知协议待补充。

好了,终于说完了整个系统的宏观。接下来记录一下细节部分。

二、系统搭建

首先就是搭建这样一套系统了。自然是网上搜索各种教程,不过最后总结一下,还是官网比较靠谱。
分为以下三个部分:
1.环境准备
2.组件安装
3.健康检查
为了后续的重复利用,这边直接写了自动化脚本来实现重复安装。

1.环境准备

未完待续。。。。(有时间就写几句)

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐