企业数据仓库技术应用探讨 下载本文

内容发布更新时间 : 2024/11/15 21:31:27星期一 下面是文章的全部内容请认真阅读。

龙源期刊网 http://www.qikan.com.cn

企业数据仓库技术应用探讨

作者:姜传菊

来源:《商业时代》2012年第23期

内容摘要:本文介绍了数据仓库在现代企业中所起的作用和地位,分析了数据仓库系统的设计策略,在此基础上,提出了数据仓库应用中所要面对的安全问题。 关键词:数据仓库 设计策略 数据安全

数据仓库是数据库技术的发展和延伸,是在一个全新层面上的数据库应用系统。数据仓库系统与传统的数据库应用系统最大的区别在于它向用户最终展示的不是企业过去已经具有的信息。它能够将分布在企业网络中的各种数据集中起来,为决策者提供各种有效的数据分析,从而起到决策支持的作用。美国Inmon在《Building the Date Warehouse》一书中对数据仓库作了如下定义:“数据仓库是一个面向主题的、集成的、稳定的、随时间不断变化的数据集合,它用于支持管理中的决策制定过程”。

数据仓库在现代企业中的重要作用和地位

现在企业中数据仓库的应用主要有以下几个方面:决策支持。这是建立数据仓库最为重要的应用。数据仓库通过对繁多的实时数据和历史数据进行综合、提炼将决策支持所需要的信息从企业的日常运行数据之中分离出来向企业中的决策者提供他们所关心的企业运行的某一特定侧面的信息;历史趋势分析。数据仓库中保留着大量的历史数据,可以用来进行历史趋势分析,为进一步的生产提供指导作用;数据挖掘。采用人工智能、统计学等技术实现自动化地分析企业的历史数据,做出归纳性的推理,可以预测企业未来的发展方向,帮助企业的决策者及时调整策略、减少风险,做出正确的决策。数据挖掘技术能帮助用户从数量非常庞大的数据海洋中提取出高质量信息,这是数据仓库的一个非常重要的作用;生产调度。数据仓库能够从企业中各部门的复杂的数据库中进行综合提取和集成,保证了全局数据的一致性,从根本上避免了决策中面对不同部门的矛盾数据复杂的处理过程,保证了企业调度的效率和正确性。 数据仓库在企业管理中重要性正被越来越多的企业所认可。已广泛应用于证券、金融、税务、保险等行业中。Meta Gyoup咨询公司曾预测,在世纪之交,全球将建立2000万套以上的数据仓库。数据仓库和数据挖掘技术将是企业、银行、政府等领域提高自己效益和效率的重要手段。

企业数据仓库系统的设计策略

由于众多的数据仓库系统供应商提供了大量的开发工具,因此数据仓库系统设计的重点在于系统的规划和设计选择恰当的工具。开发数据仓库的过程主要包括下面几步: (一)数据仓库系统的总体设计

龙源期刊网 http://www.qikan.com.cn

总体设计需要从业务需求分析和实现策略两个方面进行考虑。业务需求分析是在与用户充分沟通的基础上,确定开发范围、系统目标、数据来源、容量规划、开发时间、资金预算等。业务需求分析是数据仓库建设的第一步,应该准确了解用户的实际需求,避免调查失误。确定数据来源时,要对企业现有的数据体系进行全面规划,既要保证对大量的历史数据的收集存储,又要保证对不断更新数据的跟踪录入。实现策略包括运行环境、系统结构、开发工具等。数据仓库系统需要高性能的数据管理系统和并行处理技术的支持,可靠性、可扩展性是必须考虑的重要因素。 (二)逻辑模型设计

总体设计完成之后,首先要进行逻辑模型设计,即设计数据仓库数据的逻辑表现形式,建立描述企业的数据模型。数据模型是面向主题建立的,应根据主题选择数据源,确定数据集成的统一标准。设计数据仓库的逻辑模型,一般采用维数据建模方式,常用的结构形式是星型模式和雪花模式。 (三)物理模型设计

进行物理模型设计就是确定数据仓库的存储结构,确定索引策略,确定数据的存放位置,确定存储分配,即将数据仓库的逻辑模型转换成数据仓库的物理结构。数据仓库中数据的物理存储形式有多维数据存储和基于关系的数据存储。多维数据存储在逻辑上按数组保存数据,相对终端而言,是一种客户机—服务器模式。关系数据存储按关系格式存放数据,相对终端而言,采用的是三层结构,中间层完成关系模式到多维模式的转换。 (四)数据仓库的生成

该部分依据设计的数据结构和数据载入,维护策略,标示出数据源和数据仓库的硬件平台,确定传送数据的方法,定义数据采集、净化、转换、装载过程。

这一部分的支撑环境应该支持对于多种数据类型和多项筛选条件的数据的采集、整理,应具有跨平台、跨系统、高效率的抽取数据的能力。具有对劣势数据做出判断和处理的能力。具有自动选择最佳数据汇总策略,自动维护数据增量的机制。最好是采用了并行处理技术和智能化的数据分布技术。 (五)数据仓库的管理

数据仓库的管理可分为对元数据的管理和对运行过程的管理两个方面。对元数据的管理包括指示出系统各元素存放的位置,定义数据的意义和结构,数据间的影射关系,数据转换的算法、数据时限、控制信息等,对运行过程的管理是在元数据的基础上构建取用数据程序,数据转换程序、数据更新程序、运行接口程序等。这里要综合考虑选用的数据库系统的安全性,系统的性能以及采集,集成和描述元数据的范围,能否通过前端工具方便的浏览访问等问题。

龙源期刊网 http://www.qikan.com.cn

(六)数据分析

联机分析处理OLAP和数据挖掘DW。OLAP是以数据库为基础的多维化查询,它需要数据库作为其数据来源。根据数据在数据库中存放形式的不同,可分为关系型联机分析处理ROLAP和多维型联机分析处理MOLAP。现在又出现了一种新的技术HOLAP(混合联机分析处理)。由于各种技术都有优缺点,在选择采用哪种技术时,应视具体情况而定。一般当构建的数据仓库数据量较大时,一般采用ROLPA系统。数据量较小时,可采用MOLAP系统。数据挖掘DW是数据仓库技术的又一组成部分,目前市面上流通的数据挖掘产品可分为三种类型,即基于大规模并行计算的辅助数据挖掘、基于PC机环境的桌面数据挖掘、基于用户/服务器与WEB/服务器结构的应用型数据挖掘。在选取数据挖掘工具时,首先要考虑的是数据质量问题。数据挖掘工具在实现知识发现功能的同时,必须正确处理分析碰到的异构数据,可视化功能的强弱和吸收大量数据的能力,对任一部分数据或任一级别的数据进行挖掘的能力,也是考察的重要指标。当然,用户自己的应用要求和构建成本也要考虑。无论是选用OLAP产品还是DW产品,需要考核的一个共同问题是对用户请求的响应速度和多个用户同时操作时系统的安全性。

(七)数据展现和持续开发的观点

1.数据展现。从长远观点来看,未来的数据仓库系统都将是Internet化的,这样既对跨平台、跨网络的数据进行统一管理,也可使用户可操作界面规范化。

2.持续开发的观点。数据仓库系统是为企业长期的战略决策服务的,它应随着企业的发展和市场需求的变化而变化。所以,数据仓库系统不是一个可以一次完成的项目,需要对它制定维护和更新策略,定期进行维护和更新工作。 数据仓库中的安全问题

一方面由于数据仓库中存储着丰富的经过了抽取、清洗、重新组织等过程增值的数据,因此对于非授权用户来说具有极大的诱惑力。另一方面由于Internet的开放性,使得与Internet结合的数据仓库在推动了它迅速发展的同时,也带来了新的安全问题,未授权用户可以轻易地进入组织内部。如果没有充足的安全措施,数据仓库中丰富数据将成为闯入者的猎物。 (一)网络环境下的基本安全措施

对于数据仓库/Internet的安全问题所要采取的第一措施就是采用现有的安全措施。防火墙、数据库视图机制和系统的登录/注销机制。防火墙技术是访问控制的一种具体实现,设置在保护网络和公共网络之间。它是保护可信网络阻止不可信网络入侵的一种机制,属于访问控制的范畴。因此,在数据仓库中利用防火墙其出发点只是将整个要保护的数据库和系统包围起来,在内部不采取任何基础措施, 只是通过制造进入系统的屏障来确保系统的安全。这种安全措施有很多缺陷:一旦保护敏感数据的屏障出现漏洞,就无法采取进一步的保护措施;在数