据集合,用以支持经营管理中的决策制订过程。面向主题、集成、稳定和随时间变化是数据仓库四个最主要的特征。
(1) 数据仓库是面向主题的
? 它是与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准,每一个主题基本对
应一个宏观的分析领域。比如一个保险公司的数据仓库所组织的主题可能为:客户政策保险金索赔。 ? 而按应用来组织则可能是:汽车保险生命保险健康保险伤亡保险。我们可以看出,基于主题组织的数
据被划分为各自独立的领域,每个领域有自己的逻辑内涵而不相交叉。
? 而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起的。应用是客观世界
既定的,它对于数据内容的划分未必适用于分析所需。
(2) 数据仓库是集成的
? 操作型数据与适合DSS分析的数据之间差别甚大。因此数据在进入数据仓库之前,必然要经过加工
与集成。这一步实际是数据仓库建设中最关键、最复杂的一步。首先,要统一原始数据中所有矛盾之处,如字段的同名异义、异名同义,单位不统一,字长不一致等等。并且对将原始数据结构作一个从面向应用到面向主题的大转变。
(3) 数据仓库是稳定的
? 它反映的是历史数据的内容,而不是处理联机数据。因而,数据经集成进入数据库后是极少或根本不
更新的。
(4) 数据仓库是随时间变化的
? 首先,数据仓库内的数据时限要远远长于操作环境中的数据时限。前者一般在5-10年,而后者只有
60-90天。数据仓库保存数据时限较长是为了适应DSS进行趋势分析的要求。其次,操作环境包含当前数据,即在存取一刹那是正确有效的数据。而数据仓库中的数据都是历史数据。最后,数据仓库数据的码键都包含时间项,从而标明该数据的历史时期。
3.分析工具─-数据仓库系统的重要组成部分
? 有了数据就如同有了矿藏,而要从大量数据中获得决策所需的数据就如同开采矿藏一样,必须要有工
具。
(1) 联机分析处理技术及工具
? 短短的几年,OLAP技术发展迅速,产品越来越丰富。它们具有灵活的分析功能,直观的数据操作
和可视化的分析结果表示等突出优点,从而使用户对基于大量数据的复杂分析变得轻松而高效。 ? 目前OLAP工具可分为两大类,一类是基于多维数据库的,一类是基于关系数据库的。两者相同之
处是基本数据源仍是数据库和数据仓库,是基于关系数据模型的,向用户呈现的也都是多维数据视图。不同之处是前者把分析所需的数据从数据仓库中抽取出来物理地组织成多维数据库,后者则利用关系表来模拟多维数据,并不物理地生成多维数据库。
3.数据挖掘技术和工具
? 数据挖掘(Data Mining,简称DM)是从大型数据库或数据仓库中发现并提取隐藏在内的信息的一种新
技术。目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,它们对预测趋势、决策行为也许是十分有用的信息。
? 数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术,它使DSS系统跨
入了一个新阶段。传统的DSS系统通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳性推理,从中发掘出潜在的模式;或产生联想,建立新的业务模型帮助决策者调整市场策略,找到正确的决策。
4.基于数据库技术的DSS解决方案
? 技术的进步,不懈的努力使人们终于找到了基于数据库技术的DSS的解决方案,这就是:
DW+OLAP+DM ───> DSS的可行方案
? 数据仓库、OLAP和数据挖掘是作为三种独立的信息处理技术出现的。数据仓库用于数据的存储和
组织,OLAP集中于数据的分析,数据挖掘则致力于知识的自动发现。它们都可以分别应用到信息系
25
统的设计和实现中,以提高相应部分的处理能力。但是,由于这三种技术内在的联系性和互补性,将它们结合起来即是一种新的DSS构架。这一构架以数据库中的大量数据为基础,系统由数据驱动。 ? 其特点是:
(1)在底层的数据库中保存了大量的事务级细节数据。这些数据是整个DSS系统的数据来源。
(2)数据仓库对底层数据库中的事务级数据进行集成、转换、综合,重新组织成面向全局的数据视图,为DSS提供数据存储和组织的基础。
(3)OLAP从数据仓库中的集成数据出发,构建面向分析的多维数据模型,再使用多维分析方法从多个不同的视角对多维数据进行分析、比较,分析活动从以前的方法驱动转向了数据驱动,分析方法和数据结构实现了分离。
(4)数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动地作出预测。数据挖掘表明知识就隐藏在日常积累下来的大量数据之中,仅靠复杂的算法和推理并不能发现知识,数据才是知识的真正源泉。数据挖掘为AI技术指出了一条新的发展道路。 3、主动数据库
? 主动数据库(Active Data Base)是相对于传统数据库的被动性而言的。许多实际的应用领域,如计算
机集成制造系统、管理信息系统、办公室自动化系统中常常希望数据库系统在紧急情况下能根据数据库的当前状态,主动适时地做出反应,执行某些操作,向用户提供有关信息。
? 主动数据库通常采用的方法是在传统数据库系统中嵌入ECA(即事件-条件-动作)规则,在某一事件
发生时引发数据库管理系统去检测数据库当前状态,看是否满足设定的条件,若条件满足,便触发规定动作的执行。
? 为了有效地支持ECA规则,主动数据库的研究主要集中于解决以下问题:
? 主动数据库(Active Data Base)是相对于传统数据库的被动性而言的。许多实际的应用领域,如计算
机集成制造系统、管理信息系统、办公室自动化系统中常常希望数据库系统在紧急情况下能根据数据库的当前状态,主动适时地做出反应,执行某些操作,向用户提供有关信息。
? 主动数据库通常采用的方法是在传统数据库系统中嵌入ECA(即事件-条件-动作)规则,在某一事件
发生时引发数据库管理系统去检测数据库当前状态,看是否满足设定的条件,若条件满足,便触发规定动作的执行。
– 主动数据库的数据模型和知识模型:即如何扩充传统的数据库模型,使之适应于主动数据库的要求。 – 执行模型:即ECA规则的处理和执行方式,是对传统数据库系统事务模型的发展和扩充。
– 条件检测:是主动数据库系统实现的关键技术之一,由于条件的复杂性,如何高效地对条件求值是
对提高系统效率有很大的影响。
– 事务调度:与传统数据库系统中的数据调度不同,它不仅要满足并发环境下的可串行化要求而且要
满足对事务时间方面的要求。目前,对执行时间估计的代价模型是有待解决的难题。
– 体系结构:目前,主动数据库的体系结构大多是在传统数据库管理系统的基础上,扩充事务管理部
件和对象管理部件以支持执行模型和知识模型,并增加事件侦测部件、条件检测部件和规则管理部件。
– 系统效率:系统效率是主动数据库研究中的一个重要问题,是设计各种算法和选择体系结构时应主
要考虑的设计目标。
4、对象-关系数据库
? 对象-关系数据库系统兼有关系数据库和面向对象的数据库两方面的特征。即它除了具有原来关系数
据库的种种特点外,还应该提供以下特点:
(1) 允许用户扩充基本数据类型
– 即允许用户根据应用需求自己定义数据类型、函数和操作符,而且一经定义,这些新的数据
类型、函数和操作符将存放在数据库管理系统核心中,可供所有用户公用。
(2) 能够在SQL中支持复杂对象
– 即由多种基本类型或用户定义的类型构成的对象。
(3) 能够支持子类对超类的各种特性的继承,支持数据继承和函数继承,支持多重继承,支持函数重载。
26
(4) 能够提供功能强大的通用规则系统,而且规则系统与其他的对象-关系能力是集成为一体的。例如规则中的事件和动作可以是任意的SQL语句,可以使用用户自定义的函数,规则能够被继承等等。
? 实现对象-关系数据库系统的方法主要有以下五类:
1. 从头开发对象-关系DBMS。这种方法费时费力,不是很现实。 2. 在现有的关系型DBMS基础上进行扩展。扩展方法有二种:
? 对关系型DBMS核心进行扩充,逐渐增加对象特性。这是一种比较安全的方法,新系统的性
能往往也比较好。
? 不修改现有的关系型DBMS核心,而是在现有关系型DBMS外面加上一个包装层,由包装层
提供对象-关系型应用编程接口,并负责将用户提交的对象-关系型查询映象成关系型查询,送给内层的关系型DBMS处理。这种方法系统效率会因包装层的存在受到影响。
3. 将现有的关系型DBMS与其他厂商的对象-关系型DBMS连接在一起,使现有的关系型DBMS直接
而迅速地具有了对象-关系特征。连接方法主要有二种:
– 关系型DBMS使用网关技术与其他厂商的对象-关系型DBMS连接。但网关这一中介手段会
使系统效率打折扣。
– 将对象-关系型引擎与关系型存储管理器结合起来。即以关系型DBMS作为系统的最底层,
具有兼容的存储管理器的对象-关系型系统作为上层。
4. 将现有的面向对象型DBMS与其他厂商的对象-关系型DBMS连接在一起,使现有的面向对象型
DBMS直接而迅速地具有了对象-关系特征。连接方法是:
– 将面向对象型DBMS引擎与持久语言系统结合起来。即以面向对象的DBMS做为系统的最底
层,具有兼容的持久语言系统的对象-关系型系统作为上层。
5. 扩充现有的面向对象的DBMS,使之成为对象-关系型DBMS。
27