数据库仓库与数据挖掘
常见的数据处理工作大致可分成两大类:OLTP(On-Line Transaction Processing,联机事务处理)和OLAP(On-Line Analytical Processing,联机分析处理)。OLTP是传统的关系型数据库的主要应用;OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持。联机分析处理OLTP是事件驱动、面向应用的。对响应时间要求非常高,用户数量...
常见的数据处理工作大致可分成两大类:OLTP(On-Line Transaction Processing,联机事务处理)和OLAP(On-Line Analytical Processing,联机分析处理)。OLTP是传统的关系型数据库的主要应用;OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持。
联机分析处理
OLTP是事件驱动、面向应用的。对响应时间要求非常高,用户数量非常庞大,数据库的各种操作基于索引进行,对数据库的事务均已预先定义,查询简单,一般不牵涉到多表连接操作。
OLAP可以从多角度对信息进行快速、一致、交互地存取
数据仓库的概念
Data Warehouse是一个面向主题的、集成的、相对稳定的,且随时间变化的数据集合,用于支持管理决策。
数据仓库虽然是从传统数据库系统发展而来,但两者还是存在着诸多差异,中从数据存储的内容看,数据库只存放当前值,而数据仓库则存放历史值。数据库数据的目标是面向业务操作人员,为业务处理人员提供数据处理的支持;而数据仓库则是面向 中高层管理人员的,为共提供决策支持等。
从结构角度看,有三种数据仓库模型 :
(1)企业仓库:面向企业
(2)数据集市:面向主题
(3)虚拟仓库:视图的集合
简单转移是指字段数据进行统一处理,以达到不同数据源提取到的数据的类型、结构、域上的统一。
清洗是对业务数据逻辑结构上的统一,进行字段间的合并,构成新的字段,并相应对数据进行处理。
集成是针对不同的业务数据,构建亲的实体并组织数据。
聚集和概括是指对相关数据进行统计汇总等操作后做为数据仓库中的数据。
数据挖掘的概念
主要有以下5种功能
(1)自动预测趋势和行为
(2)关联分析:关联可分数简单关联、时序关联和因果关联。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
(3)聚类:聚类增强了人们对客观现实的认识
(4)概念描述:
(5)偏差检测
常用的数据挖掘方法 :
(1)决策树:在国际上最早的、也是最有影响的决策树方法是Quiulan研究的ID3方法。
(2)神经网络:主要有三种神经网络模型,分别是前馈式网络、反馈式网络和自组织网络。
(3)遗传算法。
(4)关联规则挖掘算法:关联规则是描述数据之间存在关系的规则, 一般分为两上步骤:首先求出大数据项集,然后用大数据项集产生关联规则 。
最后欢迎大家访问我的个人网站:1024s
更多推荐
所有评论(0)