企业信息化与电子商务——商业智能技术体系解析

BI (商业智能) 系统包括数据预处理建立数据仓库数据分析数据展现四个主要阶段。

数据预处理是整合企业原始数据的第一步,它包括数据的抽取 (Extraction)、转换 (Transformation) 和加载 (Load) 三个过程 (ETL 过程);

建立数据仓库则是 处理海量数据的基础;

数据分析是体现系统智能的关键,一般采用 OLAP (联机分析处理) 和数据挖掘两大技术。OLAP 不仅用于数据汇总 / 聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据进行多维分析。
数据挖掘的目标则是挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题;

在海量数据和分析手段增多的情况下,数据展现主要保障系统分析结果的可视化。

一、商业智能(BI)核心架构

数据源
数据仓库
OLAP服务器
前端应用
决策分析
数据挖掘

1. BI技术栈对比

组件功能定位关键技术典型输出
数据仓库集成存储历史数据ETL/ELT主题数据集
OLAP多维数据分析立方体计算动态报表
数据挖掘潜在规律发现机器学习算法预测模型
前端应用可视化交互自助式BI工具决策仪表盘

二、数据仓库体系解析

数据库 vs 数据仓库

数据库的特点
+面向应用:按应用组织数据
+零散的:一个应用对应一个数据库
+CRUD:增删改查是常态
+解决当下应用问题
数据仓库的特点
+面向主题:按主题组织数据
+集成的:整个企业对应一个数据仓库
+相对稳定的(非易失的):查询为主、基本无修改与删除
+反映历史变化(时变的):各个阶段信息都有,并可做预测未来趋势

数据仓库特征矩阵

维度数据库数据仓库
数据组织按应用分散存储按主题集成存储
数据操作频繁增删改查主要查询分析
时间特性当前状态记录历史快照存储
典型场景交易处理系统(OLTP)决策支持系统(OLAP)

三、OLAP(联机分析处理)

数据处理流程

journey
    title ETL全流程
    section 数据源
    section 数据抽取、清理、转载、刷新
        数据源 --> 数据仓库 --> 数据集市(小的数据仓库,可理解为部门级的数据仓库)
    section OLAP服务
        数据仓库/数据集市 --> OLAP服务器(多维的数据空间,它会上卷、下钻和旋转分析)
    section 分析服务
        查询报表、数据分析、数据挖掘(利用隐藏的知识做分析与预测)

OLAP操作模型

mindmap
    root((OLAP操作))
        上卷(Roll-up)
            细节→汇总
        下钻(Drill-down)
            汇总→细节
        切片(Slice)
            固定维度筛选
        切块(Dice)
            多维度筛选
        旋转(Pivot)
            维度轴交换

记住OLAP(联机分析) 和 OLTP(事务处理)的技巧

联想记忆法

OLAP:把 “L” 看作 “Line”(联机),“A” 看作 “Analysis”(分析),“P” 看作 “Processing”(处理)。可以想象在一个联机的环境下,对大量的数据进行分析处理,比如企业通过对多年的销售数据进行分析,来制定未来的销售策略,这就是 OLAP 的应用场景。

OLTP:可以将 “T” 联想为 “Transaction”(事务)的首字母,“P” 可以联想为 “Process”(处理)。所以 OLTP 就可以理解为处理事务的过程,就像银行转账、超市结账等日常交易场景,都是典型的事务处理,每个事务都有明确的开始和结束,要求数据的准确性和一致性。


四、数据挖掘技术解析

核心方法分类

数据挖掘
关联分析
序列模式
分类分析
聚类分析
关联分析:挖掘出隐藏在数据间的相互关系。
序列模式分析:侧重点是分析数据间的前后关系(因果关系)。
分类分析:为每一个记录赋予一个标记再按标记分类。
聚类分析:分类分析法的逆过程。

知识点
机器学习中的聚类分析,简单来说,就是把一堆数据点按照它们彼此之间的相似程度,自动划分成不同的组或类的过程。就好像在一个大操场上有很多不同的人,聚类分析就是要把那些在某些特征上(比如身高、体重、衣服颜色等)相似的人划分到同一个小组里,而不同小组之间的人在这些特征上就有比较明显的差异。

方法对比矩阵

方法类型分析重点典型场景算法示例
关联分析数据相互关系购物篮分析Apriori算法
序列模式分析事件前后关系用户行为路径PrefixSpan算法
分类分析标记预测信用评级决策树/SVM
聚类分析数据自然分组客户细分K-Means/DBSCAN

五、技术演进趋势

技术领域当前应用未来方向
实时分析小时级延迟亚秒级响应
增强分析可视化探索自然语言交互
云原生BI弹性扩展无服务器架构
AutoML自动特征工程全自动模型调优

行业数据:IDC预测到2025年,75%的企业将采用增强分析技术
实践建议:先建立主题数据仓库,再逐步部署预测性分析能力


练习题1
商业智能是指利用数据挖掘、知识发现等技术分析和挖掘结构化的、面向特定领域的存储与数据仓库的信息。它可以帮助用户认清发展趋势、获取决策支持并得出结论。以下()活动,并不属于商业智能范畴。
A.某大型企业通过对产品销售数据进行挖掘,分析客户购买偏好
B.某大型企业查询数据仓库中某种产品的总体销售数量
C.某大型购物网站通过分析用户的购买历史记录,为客户进行商品推荐
D.某银行通过分析大量股票交易的历史数据,做出投资决策
答案:B
原因:没有涉及复杂的分析。


练习题2
商业智能系统的处理过程包括四个主要阶段:数据预处理通过()实现企业原始数据的初步整合;建立数据仓库是后续数据处理的基础;数据分析是体现系统智能的关键,主要采用()和()技术,前者能够实现数据的上卷、下钻和旋转分析,后者利用隐藏的知识,通过建立分析模型预测企业未来发展趋势;数据展现主要完成数据处理结果的可视化。
A.数据映射和关联
B.数据集市和数据立方体
C.数据抽取、转换和装载
D.数据清洗和数据集成

A.知识库
B.数据挖掘
C.联机事务处理
D.联机分析处理

A.知识库
B.数据挖掘
C.联机事务处理
D 联机分析处理
答案:
第一个空为C.数据抽取、转换和装载
第二个空为D.联机分析处理
第三个空为B.数据挖掘
原因:对应的概念可以找到对应的答案。


思考题:

如何设计零售业客户分群的聚类分析方案?


软考经验

需要记住数据仓库的特点,非常有可能直接出题。


写在最后 ✨

各位技术小伙伴们~ 👋
如果觉得这篇解析对你有帮助:

  • 👉 点击关注 → 不错过后续的架构干货
  • 👍 点赞支持 → 您的鼓励是我更新的动力
  • 💾 收藏备用 → 搭建系统时随时查阅
  • 🎯 转发分享 → 帮助更多小伙伴少走弯路

「小贴士」:点击头像→【关注】按钮,系统架构师成长之路不迷路! 🚀

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐