📖第二章——数据仓库与数据挖掘教程——第二版

📑 1、数据仓库结构包括哪些?

书 P 18 - 2.1.1

数据仓库结构包括当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据。

在这里插入图片描述

📑 2、综合数据与详细数据是什么?

书 P 19 - 第 2 段

综合数据与详细数据是不同“粒度”的数据。

什么是“粒度”?

粒度是指 数据仓库的数据单元中保存数据的细化或综合程度的级别。细化程度越详细,粒度级就越低。

低粒度级——详细数据

高粒度级——综合数据

📑 3、数据集市

数据集市的别称? 书 P 19 页 底

部门级数据仓库(Department Data Warehouse)

数据集市的概念? 书 P 20

数据集市是一种更小、更集中的数据仓库同时也是指具有特定应用的数据仓库。

数据集市的种类?

分为 独立的数据集市 和 从属的数据集市 两类

数据集市的作用范围?

主要针对于某个具有战略意义的应用或具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势 或者 找到进入新市场的具体解决方案

数据集市与数据仓库的差别?

数据仓库 数据集市
面向企业范围内的主题数据模型而建立 按照某一特定部门的数据模型而建立
存储整个企业内非常详细的数据 数据的详细程度要低一些
数据组织可以采用第三范式 数据组织一般采用星型模型

两种数据集市的逻辑结构

在这里插入图片描述

📑 4、数据仓库系统结构

书 P 22 - 2.1.3

数据仓库系统由数据仓库(Data Warehouse)、仓库管理 和 分析工具 三部分组成。

仓库管理包括了什么?

仓库管理包括了数据建模;数据抽取、转换、装载(ETL—— Extract 、 Transform 、 Load);元数据;系统管理等四个部分。

数据仓库包括了什么?

数据仓库包括了当前数据、综合数据和历史数据三个部分。

分析工具包括了哪些?

分析工具包括了数据挖掘(DM)工具、联机分析处理(OLAP)工具、查询工具、C/S (Client / Server)工具

什么是数据建模?

数据建模是建立数据仓库的数据模型(Data Model),数据模型是现实世界数据特征的的抽象,数据模型一般包括数据结构和数据建模。

数据仓库的数据模型不同于数据库的数据模型体现在哪几个方面?

  • 数据仓库的数据模型的数据只为了决策分析用,不包含那些纯事务处理的数据。
  • 数据仓库的数据模型中增加了时间属性的代码数据
  • 数据仓库的数据模型中增加了一些导出的数据,如综合数据等

📚 小结:数据仓库的数据建模是使建立的物理(存储)数据模型能适应决策用户使用的逻辑数据模型

ETL 数据抽取、转换、装载(ETL) 书 P 23

数据仓库中的数据,是通过在源数据中抽取数据按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载存储到数据仓库中去

系统管理

系统管理包括数据管理、性能监控、存储器管理以及安全管理。

📑 5、数据仓库包括哪些主要的数据模型 以及模型的特点

书 P 25 第一段

对于逻辑模型数据模型,可以使用不同的存储机制和表示模式来实现多维数据模型

使用的多维数据模型主要有 星型模型 、 雪花模型 、星网模型 、 第三范式等。

星型模型的优缺点 书 P25 雪花模型上方

  • 优点:星型模型是非规范化的,以增加存储空间为代价,提高多维数据的查询速度
  • 缺点:当业务发生变化,原来的维不能满足要求时,则需要增加新的维。由于事实表的主键是由所有的维表的主键组成,因此业务变化带来的数据变化是非常复杂且耗时的。星型模型的数据冗余量很大。

📑 6、第三范式的作用以及特点

书 P 27 - 2.2.4

第三范式作用:是为了解决数据冗余,数据被分割成多个实体,实体在数据库中就用表来表示,使用 3NF 会形成比较复杂的关系表,但适合于操作性处理,如 进行 update 和 insert 操作。

📑 7、 装载方式与类型 —— 了解一下

书 P 31 - 2.3.3

数据装载包括数据装载方式和数据装载类型。

📚 数据装载方式:

  • 基本装载
  • 追加
  • 破坏性合并
  • 建设行合并

📚 数据装载类型:

  • 最初装载
  • 增量装载
  • 完全刷新

📑 8、元数据 ⭐

书 P 33 - 2.4.1

元数据 在 数据仓库 的 建造、运行中 有着极其重要的作用。元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据集仓库的核心。

元数据 分为哪四类?

  • 关于数据源的元数据
  • 关于数据模型的元数据
  • 关于数据仓库映射的元数据
  • 关于数据仓库使用的元数据

哪两类人会用到元数据? 书 P 34 - 最上面第二段

最终用户(包括商业分析员)、IT 人员

🔖 关于数据源的元数据

概念:它是现有的业务系统的数据源的描述信息。

这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:

  • 数据源中所有物理数据结构,包括所有的数据项及数据类型。
  • 所有数据项的业务定义。
  • 每个数据项更新的频率,以及由谁或那个过程更新的说明。
  • 每个数据项的有效值。
  • 其他系统中具有相同业务含义的数据项的清单。

🔖 关于数据模型的元数据

概念:关于数据模型的元数据描述了数据仓库中有什么数据以及数据间的关系,支持用户从数据仓库中获取数据

🔖 关于数据仓库映射的元数据

概念:关于数据仓库映射的元数据,反映了数据源与数据仓库数据之间的映射,以及数据项是从哪个特定的数据源抽取的,经过了哪些转换、变换和装载。

🔖 关于数据仓库使用的元数据

概念:这类元数据是对数据仓库中信息使用情况的描述。

📑 课后习题

🔖 说明数据仓库结构图中包含轻度综合层 与 高度综合数据层的作用。这些数据为什么不是临时计算出来的?

书 P 18 - 19

数据仓库除了存储按主题组织起来的当前详细数据外,还需要存储综合数据,这是为了适应决策需求而增加的。在数据库中需要得到综合数据时采用数据立方体的方法对详细数据进行综合。在数据仓库中并不采取临时计算的方式得到综合数据,而在用户提出需要综合数据之前,就预先将可能的综合数据利用数据立方体计算好,存入综合数据层中,这种综合数据层在用户查询时,就能迅速提供给用户。

🔖 说明数据集市的特点

书 P 20

  • 规模是小的
  • 特定的应用
  • 面向部门
  • 由业务部门定义,设计和开发
  • 由业务部门管理
  • 快速实现
  • 价格较低廉
  • 投资快速回收
  • 工具集的紧密继承
  • 更详细得、预先存在的数据仓库的摘要子集
  • 可升级到完整的数据仓库

🔖 画出数据集市的两种结构图 , 说明他们的不同点

从属数据集市

在这里插入图片描述

独立数据集市

在这里插入图片描述

独立数据集市 从属型数据集市
可以直接从操作型环境获取数据 是从企业级数据仓库获取数据带有从属型数据集市的体系结构

🔖 什么是关于数据源的元数据?

关于数据源的元数据是对不同平台上的数据源的物理结构和含义的描述。

🔖 什么是关于数据模型的元数据?

关于数据模型的元数据描述了数据仓库中有什么数据以及数据间的关系,支持用户从数据仓库中获取数据

🔖 什么是关于数据仓库映射的元数据?

关于数据仓库映射的元数据,反映了数据源与数据仓库数据之间的映射,以及数据项是从哪个特定的数据源抽取的,经过了哪些转换、变换和装载。

🔖 什么是关于数据仓库使用的元数据?

关于数据仓库使用的原数据是对数据仓库中信息使用情况的描述。

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐