智慧城市大数据分析系统解决方案
中国“城镇化”的背景下,为了积极响应政府提出的城市化发展策略,把“智慧城市”作为业务发展重点,确立了“共建 汇聚 共享”为发展模式的智慧城市发展战略。
背景定位目标
1.建设背景
中国“城镇化”的背景下,为了积极响应政府提出的城市化发展策略,把“智慧城市”作为业务发展重点,确立了“共建 汇聚 共享”为发展模式的智慧城市发展战略。
“智慧城市”确定了依托云计算、物联网、移动互联网等核心技术,结合基础通信优势资源,打造全国统一的智慧城市云承载平台,使智慧城市成为企业新的业务增长点。
“智慧城市”云平台建设和运营是一个庞大的系统化工程。为有效保障智慧城市云平台运营健康、高效、可持续化发展,需要以数据处理及分析应用为抓手,构建独立、高效、面向智慧城市云平台的业务运营、平台运维、租户运营的数据分析服务平台。
2.系统定位
根据智慧城市应用“以城市为中心”的业务特性,企业智慧城市云平台采用一级架构,包括管理平台和资源池两大部分。数据服务分析平台为智慧城市云平台的一部分。
3.云平台功能架构中的定位
4.与周边子系统关系
数据服务分析平台主要从云管理平台中的业务平台、运维平台采集数据。
租户的结构化/非结构化数据也是数据服务分析平台采集的一部分。
5.建设目标
本项目主要建设数据分析服务平台,通过有效收集、整合智慧城市云平台以及周边关联系统中的各类数据,以业务运营和平台运维分析管理需求为导向进行数据加工处理,建立包括业务运营、云平台运维监控等应用,并能方便快捷向平台运维人员、业务运营人员及租户提供所需的数据分析能力、数据计算服务能力、数据自助服务能力,为智慧城市云平台业务运营和平台运维保障提供有效信息支撑。
总体建设方案
1.总体框架
数据分析服务平台主要包括“数据整合层、数据应用层、统一门户层、数据管控层”四个主要部分。
1.1 数据整合层
● 数据体系架构
多层次多粒度数据体系架构:数据架构是基于“智慧城市云平台”的管理数据和租户数据的进行规划,本次项包括STG、DWD、DWA、DM四层以及私有数据层次,不同层次实现数据粒度由细到粗的数据整合。
● 数据架构说明
数据架构描述主要针对不同的数据层次描述层次的定位和作用、模型设计、数据粒度、存储周期。
● 模型设计六大原则
● 数据获取层STG
STG层
STG是数据整合层的一个组成部分,主要是作为数据仓库数据处理的过渡,以降低直接进行数据处理的复杂度。是一个面向数据主题的、集成的、可变的、当前的细节数据集合层。
STG层是临时细节数据层,是对生产业务系统数据进行沉淀,因此本层的数据模型原则上延用生产模型,包括主题域和子域划分方式。
STG数据整合层是的数据来源主要包括“平台管理数据”和“租户私有数据”两部分。平台管理数据,指来自于云管理平台的内部数据。租户私有数据,指来自租户自己部署应用的数据。
接口说明-云管理平台对外接口
● 明细数据层(DWD)
DWD是数据仓库的细节数据层,为企业各种分析类应用提供细节性数据支持,是数据仓库的核心,同时为未来需求的扩展提供历史数据支持。
DWD层的模型设计,需要围绕企业核心业务过程展开,关注业务过程中的核心业务事件和业务实体,遵从生产系统域的划分。
● 衍生汇总数据层(DWA)
1.2 数据应用层
● 三类应用/两个转变
数据应用包括“数据运营分析应用、数据计算服务应用、数据自助服务应用”三类。数据应用以业务分析为基础、以计算服务为依托,面向不同角色提供工具化、产品化的自助服务应用,实现数据应用方式从传统应用向个性化应用转变,实现数据应用层次从可视化与监控向交互沟通方向转变。
● 数据运营分析应用
“数据运营分析应用”主要包括“业务运营分析、平台运维分析、租户业务分析”三个部分,属于传统化、可视化应用。
业务运营分析,是以 租户、产品业务核心对象为中心,围绕业务核心对象关键KPI进行监控,业务核心对象实体属性进行深入洞察分析。
平台运维分析,是以资源为核心,围绕资源的使用、性能等进行分析。
租户运营分析,是以单一租户为核心,提供单一的租户视图。
● 数据计算服务
定义
基于Hadoop的分布式计算能力封装(Hadoop based distributed computing power package),以下简称:HDCPP。
HDCPP定义:为租户提供Hadoop分布式计算能力服务,租户能够在虚拟的Hadoop集群之上分析和处理海量的非结构化数据。HDCPP是对Hadoop能力的增强,与Hadoop集群服务、存储服务、监控服务进行无缝集成或连接。它也能与Hadoop架构之上的应用(Hive/Hbase/Pig等)进行无缝集成。
框架图
数据计算服务是在hadoop之上,提供“查询、计算、存储”三种引擎,提供基于服务生命周期的“数据计算服务”管理。
查询引擎
查询引擎是HDCPP服务的实现,通过脚本,SQL,界面元素向外提供服务。
查询引擎包含SQL解析、过程语言和元数据。
计算引擎
计算引擎是HDCPP服务的能力,在Hadoop架构基础上对计算能力封装,机制调整,优化。
计算引擎包含计算均衡、多任务调度和MR计算。
存储引擎
存储引擎是HDCPP服务的基础,规定了文件的存储方式,文件格式,存储结构,应用规范。
存储引擎包含块索引、列存储和结构化存储。
基于生命周期数据计算服务
服务申请-服务创建-服务配置-数据准备-服务运行-服务退出
数据自助服务
数据自助服务是在元数据基础之上,通过元数据屏蔽掉异构数据库差异,并提供统一的数据服务接口。自助数据服务的功能,包括元数据配置/服务/权限管理和即席查询两个部分。
1.3 数据门户
实现根据多级管理主体和用户角色,提供个性化的页面布局和个性化功能界面,统一接入、集中展现,提升用户感知。
统一应用功能发布、集中的功能和数据授权,实现门户层面的安全管理。
1.4 数据管控
1.4.1 总体说明
数据管控对元数据管理、数据质量、数据标准、数据安全、生命周期、数据加载、数据流程进行了有机结合,形成一套完整的企业级数据体系规范、运作流程及规章制度。
数据管控包含三大方面:ETL调度、数据治理、元数据管理。
1.4.2 元数据管理
元数据是数据质量、流程监控的基础,期承载了项目内的所有静态内容展现,及动态变更提醒。
实体扫描:通过扫描数据库,实现实体展现及变更通知,为自助分析服务提供元素支持
血缘关系:支撑各层实体的来龙去脉关系展现;通过既定规范,形成期血缘关系,满足管理人员、租户、维护人员对数据加载现状的了解,及变更评估;
数据权限:统一管控数据权限。
API接口: 通过Web service方式向外界系统提供能够使用Web进行调用的API
1.4.3 数据治理管理
5W-1H-1R:WHAT,WHO,WHERE,
WHY,WHEN; HOW; REPORT
锁定管控内容:数据源、应用模块,各个监控环节,问题处理流程
责任矩阵:采集流程、稽核流程、加工流程、发布流程、问题处理流程矩阵负责人
设定监控点,异常告警快速定位:数据采集、加工、稽核、发布流程监控点,针对稽核设定阀值,异常情况定位
分析异常原因:对各层级流程出现的异常点进行日志记录与原因分析
问题告警定时提醒:记录异常警告时间,对负责人进行定时提醒
异常问题解决方案:对不同的问题形成处理方案
形成分析报告:因产生的问题进行原因总结,形成分析报告,为知识库提供参考
1.4.4 ETL调度管理
ETL是数据的动能它让数据流动起来,包括数据源采集、数据稽核、数据加工流程实现一体化监控。
各环节出现的问题,系统可自动触发告警,通知管理员及时处理跟踪异常问题。
数据加工机制为问题分层管理,各层问题在数据系统内部存在多次反复流转,确保数据结果正确。
2.总体实施计划
3.项目实施管理
3.1 项目管理
建立专业化分工的管理团队,洞察云管理平台发展方向,配合租户业务分析需求,逐步完善系统建设目标,落实项目管理责任。
3.2 项目实施团队
更多推荐
所有评论(0)