数据仓库(100)
数据仓库数据仓库:各种数据的中央存储系统,提供数据的存储,管理和分析功能。功能:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),用于做数据分析。通俗讲: 为数据挖掘,多维分析,决策支持,报表系统提供易用数据。数据仓库 比较流行语言的有:AWS Redshift, Greenplum, Hive等主要模块1数据采集平台(数据仓库数据来源)使用语言技
数据仓库
数据仓库:各种数据的中央存储系统,提供数据的存储,管理和分析功能。
功能:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),用于做数据分析。
通俗讲: 为数据挖掘,多维分析,决策支持,报表系统提供易用数据。
数据仓库 比较流行语言的有:AWS Redshift, Greenplum, Hive等
主要模块
1数据采集平台(数据仓库数据来源)
使用语言技术
2数据仓库
对数据分层建模,保证数据的准确性
使用语言技术
3数据可视化
使用语言技术
数据仓库中的数据一般只更新,不删除。
2 数据库 和 数据仓库区别
OLTP 和 OLAP
操作型处理 OLTP 事务处理,关注响应速度,数据安全,完整性,并发操作等
分析型处理OLAP 联系分析,针对主题 历史数据分析,支持管理决策。
数据库:面向事务,捕获数据
数据仓库 :面向主题,分析数据
数据仓库,是在数据库已经大量存在的情况下,进一步做数据挖掘,所需要的。
3 数仓分层
三层:源数据 数据仓库 数据应用
源数据 经过 数据清洗之后, 就到了 数据仓库,这个过程称之为 ETL。
数据仓库 往 数据应用,包括 机器学习,数据挖掘,报表展示。
源数据层: ODS 不作处理,临时存储层
数据仓库层: DW 细节层,数据一致,干净
数据应用层: 可以直接读取的数据源,根据专题需求设计计算生成。
ETL 抽取 转换 装载 Extra Transfer Load
数据分层的目的:将步骤拆分,简化管理。
数仓的元数据管理
Meta Data
数据转换规则,逻辑结构,更新规则,导入历史的内容
分为技术原数据 和 技术原数据
更多推荐
所有评论(0)