一个合理的架构的关键是能够在以下方面取得平衡:
 成本
 满足需求(梳理业务和响应的应用场景)
 技术可持续(需要处理的数据源的种类、类型、数据量)
 灵活性
 稳定性
 可扩展性
在这里插入图片描述
flume 不能同步到ES
logstash 占用内存高,比较常用
fliebeat 不依赖java版本,对业务侵入少,占用内存低
在这里插入图片描述

技术架构:
在这里插入图片描述
数据开发:数据分析、特征工程(pmml模型文件)
数据仓库:负责数据资产建设和管理,数据治理
数据平台建设:集群维护,源码修改,编译

HDFS原理:

Namenode节点:Resource Manager管理cpu内存资源、Application Manager负责管理应用程序,失败重试等
SecondaryNamenode节点:HA备份机制
Datanode节点: Node Manager负责管理本地Conrainer

Balancer :对各个Datanode进行评估并使他们保持平衡
HttpFS:方便的在网页上操作hdfs的文件系统
NFS Gateway:hive客户端节点

Yarn原理:

ResourceManager:
JobHistory Server:
NodeManager:

Hive原理:

Hive Metastore Server(01)
WebChat Server
HiveServer2(01)
GeteWay(01,02,03,04)

Spark原理:(依赖HDFS、Zookeeper)

History Server:
Gateway:

Kafka原理:

Kafka Broker:
Kafka MirrorMaker:
Gateway:
Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐