一、元数据定义

 

Information about data ,中介数据、中继数据,指用于描述数据的数据,用于描述数据数据属性的信息。用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。【信息来源百度百科】

二、元数据的分类

元数据按照功能分类,可分为3大类:

1、Business Metadata(业务数据)

2、Technical Metadata(技术数据)

3、Operational Metadata(操作数据)

1、Business Metadata(业务数据)

广义来讲,用于描述业务各种逻辑信息的数据都可称为业务数据,包括但不限于:

A、商业术语:

Business Glossary,包括名词与详细定义;

BG(Business Glossary)BingCard(仅为示例, 未必需要全部填充,具体内容还需根据对应业务或技术需求而定)

商业术语 例子 优先级 备注
ID G0001
编码 SME 一般是名词的缩写
名词 Subject Matter Expert
描述 行业专家 名词的解释
URL 如何用最短的时间成为某行业专家? - 知乎 关于该名词的外界相关链接
其他相关术语 Subject 与当前名词相关其他名词、可多个
注释 特指企业内部的行业专家
标签 Talent 给当前名词添加的标签
父级术语 Employee 分类
数据管理员 Raymond.shao
当前状态 Approved 状态一般有:undefined,Approved,Deleted

B、术语分类:

对于上述商业术语的逻辑归类,可构成Glossary Tree;

C、业务规则:

Business Rule,用于描述业务逻辑的相关信息;

D、业务流程:

Business Process,包括Activity ,Input ,Output , Supplier, Consumer等。

通常还要定义一系列相关元素的负责人,需要他们对Business Metedata 进行日常额维护,以确保元数据的准确、完备与及时。

2、Technical Metadata(技术数据)

广义来讲,所有在计算机系统中用于各种程序操作的各类数据的定义以及描述信息均可称为Technical Metadata。以BI系统为例,包括但不限于如下信息:

A、系统(system)

B 、接口(Interface)

C 、实体/表(Enity/Table)

D、注释/字段(Attribute/Column)

E、数据转换(Data Transforming Rule)

F、报表语义层(Universe)

系统 BingCard及元数据

系统 例子 备注
# S00001 这个一般不用整理,系统会自己记录
系统名词 HR
系统描述 Human Resource,人力资源管理系统
操作系统 AIX 7.1
数据库类型 Oracle 11g
主机列表 XXX.XXX .XXX.com
应用 SAP ECC HR
负责人 周二
业务专家 张三
技术专家 李四

接口的Bingcard 及元数据样例

接口 例子 备注
# INTI00001
接口名词 工时系统日接口
接口描述

1、每晚9:00之前导出文件供下游系统适用

2、36个平面文件,以wsreredy.txt文件发出为完成标准

3、换行符为回车,字段间以“ | ”分割,日期格式为yyyy-mm-dd...

接口类型 Inbound 分Inboud与outbound
地址 XXX.XXX.XXX.com/ftp/ws01.txt...ws36.txt 与接口相对应,Inbound数据指数据来源上游,要导进来,outbound指数据提供给下游,要导出去
目标系统 SAP 工时系统
是否分GEO 分为AP、AM和EMEA三个GEO进行文件传输
接口周期 Daily 有实时、小时、每天、每周、每月等
接口时间

按GMT时间:

AP:8:00

AM:20:00

EMEA:16:00

负责人 李四
通知方式 http:XXX.XXX.XXX.com/fnterfaceready.html

表 Bingocard及元数据

例子 备注
物理名词 STGMDM.CUSTOMER 名词及描述信息
逻辑名词 Staging MDM Customer Table
描述 从主系统抽取的customer 信息
接口ID INT、MDM、D001 接口信息(Staging table only,DW、DM不用 )
接口 MDM主数据日接口
加载周期 每日
触发方式 时间触发、每天凌晨0:30开始抽取数据
直接上游原系统 Master Data System 数据源信息
上游数据表 SUST
最上游源系统 CRM
最上游数据表 CLIENT
数据规模 1 milliom rows 数据规模信息
数据增长规模 日增,变化1000 rows
是否增量加载 Yes 数据加载相关信息
增量加载方式 基于时间戳
上游更表更新方式 只有insert 以及逻辑删除
主题 CUSTOMER 表类型:有Staging、数据仓库(DW)、数据集市(DM)
表类型 Staging
主键 SAP_CUSTOMER_NO  Key信息
其他唯一标识 N/A
表创建信息 张三 于什么时间创建表 表定义修改信息
表维护信息 李四于什么时间增加abc三个字段

字段信息:

3、Operational Metadata(操作数据)

过程处理元数据,记录ETL过程中数据迁移情况。如迁移调度时间、迁移调度顺序,失败处理等内容。这些数据可以在迁移工具中自定义生成,但如果是手工编写ETL程序的话,Operational metadata的获取相对麻烦些。

三、DML、DDL、DCL的区别

数据库中讲SQL语句分三类:

1、DML

data manipulation languege/data modification language(数据维护语言),包括select、insert 、update 、 delect语句,后三个用来更改表中数据

2、DDL

data definition language(数据定义语言):指一些创建、修改、删除数据库对象的语言、相应的语句有:create、alter、drop

3、DCL

data control language(数据控制语言):用于控制用户对数据库的访问、常见三条命令:Grant、Revoke、setrole

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐