美章网 资料文库 企业信息化异构数据资源整合范文

企业信息化异构数据资源整合范文

企业信息化异构数据资源整合

1企业信息化发展概况

企业信息化作为中国信息化的一个重要组成部分进程得到了充分的发展,企业在基础设施、体系结构、标准化、信息共享以及安全加密等方面做了大量的工作,使信息化工程管理、网络建设、信息共享、支撑技术、信息安全等方面的技术要求、标准和管理基本完善基础设施基本完成,网站数量飞速增加,企业正在由基础建设转到应用建设的进程中。但在企业信息化发展过程中也有很多问题亟待解决:

1)开放的、统一的应用平台建设有待于进一步改善企业信息化的发展缺乏宏观统一规划,没有明确提出信息化的发展目标和发展规划。"条块分割"的管理体制与企业信息化的统一性、开放性、交互性和规模经济等自然特性产生了冲突。

2)标准化工作应进一步加强标准体系是企业信息化标准化工作的核心,也是企业信息化总体设计的重要内容,它将各个业务环节有机地连接起来,并为彼此间的协同工作提供技术准则。在整个企业信息化建设的各个层面上,大量的标准已经存在,需要国家进一步地明确和贯彻实施。

3)避免重复建设,实现数据资源的有效共享由于企业信息化建设的模式、理念以及优先级不明确造成当前在整个企业信息化环境中重复建设大量存在,数据资源相对独立。

4)完善立法工作2002年国家标准化管理委员会和国务院信息化工作办公室联合了《电子政务标准化指南》和2005年国家颁布的《电子签名法》为电子政务和电子商务建设的相关方面提供了相关的规则和法规,但应该进一步对网络环境中的相关问题如版权、证据保存、可信管理以及业务规范作更明确细致的要求。

2、数据资源的整合是实现开放企业信息化的核心

我国信息化建设的重心正发生着本质的变化,从建设初期的网络建设、信息开始转向了以整合内外部资源为主体、以提高监管能力和服务水平为目标的应用阶段。长期以来企业信息部门的大量建设资金投入到硬件设备上,缺乏信息录入、更新、深加工的技术,更缺乏把这种信息资源进行加工后产生增值的手段,使得作为信息资源拥有者的企业部门有着大量的“信息孤岛”。

企业信息化建设必须以"信息资源管理为支撑",摆脱只注重局部应用或以网络为核心的观念,将各个企业部门信息资源进行后台集中和统一管理:首先是通过统一的接口与标准,将数据统一集中;其次是管理这些统一的数据;最后,就是使这些数据能够共享,实现信息资源的有效利用。

数据整合可以将原来孤立于多个异构数据库系统的数据信息整合起来,为企业信息化应用提供一个完整统一的数据视图,而要实现此目标关键就是数据资源的整合,核心是互连互通和数据共享。通过将原来孤立于多个异构数据库系统的数据信息整合起来,为企业信息化提供一个完整统一的数据视图,从而实现数据资源的透明访问和数据资源的充分利用。现有的数据整合方法主要有以下四种:

1)定制转换工具采用“一对一”的方式,很多的数据库系统生产商都有自己的相关产品,使数据在不同的数据源之间定制专用的迁移转换,实现数据的迁移和共享。例如MicrosoftHostIntegrationServer2000可以实现SQLServer2000和DB2之间的集成和整合,SQLServer2000中通过DTS实现向ACCESS和ORACLE及其他数据库系统之间的迁移。

此种方式实现相对简单,但存在多种不足:首先需要正确理解不同数据库系统的元数据和结构以及数据的流动方式;其次此方法只能实现相对应的数据库系统之间的整合,扩充性差,对于存在多种不同的数据库系统的电子政务环境中,需要多种定制工具,实现方式相对麻烦;第三由于数据在不同的数据库系统中存在多种副本,冗余量过大,而如果在访问时即时迁移的话又影响到系统的相应时间;第四数据在迁移过程中会产生大量的网络流量,所以数据整合的时间会受到限制,该方法应用较少。

2)集中复制数据采用“多对一”的方式,实际上是数据仓库在企业信息化环境中的应用。通过将同一领域的不同系统的数据库的所有相关的数据通过分析、转换和装载中的数据移入数据仓库中,实现对异构数据源中的数据进行集中式存储和统一管理。此方式的优点是系统在原有的系统架构的基础上采用不同的商业规则独立运作,数据集成的质量高,在用复杂的查询语言访问低级别的详细信息的时候是一个较好的方法,并且对于实现数据挖掘和决策支持是必然选择。但基于数据仓库的方法也存在一些不足:首先数据仓库要想实现议购数据源之间的集中管理和存储需要大量的时间和网络流量;其次数据仓库是面向主题的、历史的数据,往往是只读的,而对于企业信息化环境中存在大量的数据需要进行修改和删除操作时,只能定期更新而无法实现实时变化;第三当异构的数据源的数据模式发生变化或新的数据源加入时,就必须生成一次全局的模式,使得维护全局模式变得更为困难,从而影响了系统的可扩展性。

对于数据量较小的单位而言,可以综合以上两种方案的优点,采用联邦数据库理论的方法(比数据仓库更小而且更关注与构建复杂业务规则来支持功能强大的数据分析功能,并且对不同数据源的写操作更为方便)。此方案中关键模块为联邦服务器,联邦服务器通过软件模块与不同的数据源之间进行通信,而客户端通过多种应用程序(包括ODBC、JDBC或WEB服务客户机)与联邦服务器交互。但由于联邦数据库的复杂的实现技术和高昂的费用代价严重的影响到在企业信息化环境中的应用。

3)基于XML的WEBServices的数据整合要想实现异构数据源整合,必须使异构数据源为应用程提供统一的全局模式的数据视图,使数据层的数据用一个公共的数据模型表现为统一的数据格式,并能够在公共数据模型上定义基本运算和实现查询和存取等操作。XML由于语义性强、交互性好、自描述、跨平台和良好的可扩展性等特性使其成为交换平台模型的首选标准。作为SOA架构的典型代表,WEBServices是一种基于XML的独立软件成分或服务程序,具有标准的程序接口和协议,可以实现不同硬件平台之上的异构数据库系统之间的数据共享。负责数据集成的WEBService位于异构数据源(数据层)和应用程序(应用层)之间,向下协调各种数据库系统,向上为访问集成数据的应用系统提供统一的全局数据模式。

对于数据向XML的转换主要基于模板的XML查询、基于扩展SQL的XML查询和基于虚拟的XML文档的查询。整合的过程(如图1所示)为:将业务数据从数据源中读取并转换为符合XML规范要求的格式;以WEBService方式将XML格式的数据提交至中间层(此过程可以采用WSsecurity或SSL、TSL来实现安全传输),由中间层仍然采用WEBService送达应用层。此方案由于支持XML、SOAP和UDDI等标准或协议,使得整合平台可以以中间件的形式在不同的硬件平台、操作系统平台和开发平台之上实现异构数据库平台的整合,并能够通过将WEBService在注册中心的实现代码的重用。但数据冗余和无法充分利用现有的信息资源是无法克服的缺点。

图1基于XML的数据集成的流程

4)基于元数据的数据整合数据元是通过定义、标识、表示以及允许值等一系列属性描述的在特定的语义环境中被认为是不可再分的最小的数据单元。数据元一般来说由对象类、特性和表示3部份组成。它们的关系如图2所示。数据元表示规范是通过描述数据元的一系列属性来实现的。这些属性实际上是数据元的元数据。针对数据元的查询、维护及基于数据元的信息抽取的需要设计了以下几个方面的基本属性:标识类属性、表示类属性、关系类属性、管理类属性和附加类属性。

数据元元数据信息可以采用传统的关系型数据库进行存储和组织,也可以采用XML文档的方式。XML文档的所具有的树形结构使其可以方便的描述数据元的组织结构。目前电子交换的XML文档标准通常使用XMLSchema进行描述。数据元是一个完备的元数据集合,基于数据元库和利用XMLSchema类型定义机制构建的扩展类型库,可以定义出数据元元数据属性到XMLSchema文档元素之间的映射规则:数据元对应XMLSchema中的XML元素。数据元包括了元数据模型的各类结构信息的细节,包括继承信息和组成信息;数据元中构成继承关系的数据元对应该数据元所对应元素类型的基类型;与数据元构成组成关系的数据元,对应数据元所对应元素的子元素;数据元所包含的数据类型(DataType)信息对应数据元所对应元素的类型。基于XML的交换技术非常容易进行扩展,对于分布式数据库环境或数据仓库中可以通过建构基于XML的公共数据元库,即可实现元数据的访问、存取和集成,为电子政务的原数据提供统一的平台,从而实现电子政务环境中的异构数据库的有效整合。但由于使元数据用XMLSchema进行描述,而XMLSchema的简洁性有待于进一步的改善,并且为了实现方便的定义元数据,XMLSchema辅助生成技术的研究也将是一个挑战。

3、结束语

企业信息化环境中数据是实现服务的核心,而异构数据的整合是基础,随着XML标准的完善和技术的更新,使其具有更强大的扩展性和适应性,基于XML的元数据将是企业信息化数据交换的主流技术。