数据集成(数据集成的方法)
数据集成
本文内容来自于互联网,分享数据集成(数据集成的方法)
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
近几十年来,科学技术的迅猛发展和信息化的推进, 使得人类社会所积累的数据量已经超过了过去5 000年的总和,数据的采集、存储、处理和传播的数量也与日俱增。企业实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。
由于现代企业的飞速发展和企业逐渐从一个孤立节点发展成为不断与网络交换信息和进行商务事务的实体,企业数据交换也从企业内部走向了企业之间;同时,数据的不确定性和频繁变动,以及这些集成系统在实现技术和物理数据上的紧耦合关系,导致一旦应用发生变化或物理数据变动,整个体系将不得不随之修改。因此,我们进行数据集成将面临着如何适应现代社会发展的复杂需求、有效扩展应用领域、分离实现技术和应用需求、充分描述各种数据源格式以及发布和进行数据交换等问题。
1、 数据集成模型分类
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。在这里将对这几种数据集成模型做一个基本的分析。
联邦数据库系统( FDBS)由半自治数据库系统构成,相互之间分享数据,联盟各数据源之间相互提供访问接口,同时联盟数据库系统可以是集中数据库系统或分布式数据库系统及其他联钍较低场T谡庵帜J较掠址治?赳詈虾退神詈狭街智榭觯?赳詈咸峁┩骋坏姆梦誓J剑?话闶蔷蔡?模?谠黾邮?菰瓷媳冉侠??而松耦合则不提供统一的接口,但可以通过统一的语言访问数据源,其中核心的是必须解决所有数据源语义上的问题。
中间件模式通过统一的全局数据模型来访问异构的数据库、遗留系统、Web 资源等。中间件位于异构数据源系统(数据层) 和应用程序(应用层) 之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据源的应用仍然完成它们的任务,中间件系统则主要集中为异构数据源提供一个高层次检索服务。
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的和不可修改的数据集合。其中,数据被归类为广义的、功能上独立的、没有重叠的主题。这几种方法在一定程度上解决了应用之间的数据共享和互通的问题,但也存在以下的异同:联邦数据库系统主要面向多个数据库系统的集成,其中数据源有可能要映射到每一个数据模式,当集成的系统很大时,对实际开发将带来巨大的困难。
中间件模式是目前比较流行的数据集成方法,它通过在中间层提供一个统一的数据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看为一个统一的整体。这种模型下的关键问题是如何构造这个逻辑视图并使得不同数据源之间能映射到这个中间层。
数据仓库技术则在另外一个层面上表达数据之间的共享,它主要是为了针对企业某个应用领域提出的一种数据集成方法,也就是我们在上面所提到的面向主题并为企业提供数据挖掘和决策支持的系统。
2、 数据高速缓存器是关键
对数据集成体系结构来说,关键是拥有一个包含有目标计划、源-目标映射、数据获得、分级抽取、错误恢复和安全性转换的数据高速缓存器。此外,数据高速缓存器包含有预先定制的数据抽取工作,这些工作自动地位于一个企业的后端及数据仓库之中。
一个高速缓存器作为企业和电子商务数据的一个单一集成点,最大限度地减少了对直接访问后端系统和进行复杂实时集成的需求。这个高速缓存器从后端系统中卸载众多不必要的数据请求,因此使电子商务公司可以增加更多的用户,同时让后端系统从事其指定的工作。
数据集成软件与企业应用集成厂商和程序集成商进行联合,而不是取代它们。的确,由于数据集成软件越来越普遍地被用来作为B2B集成的一个工具,它会引人注目地改造B2B集成商一起合作的方式以及企业向Internet迁移的方式。
3、 数据集成对于企业信息系统的作用
数据集成的出现使企业能够将后端的ERP信息迁移到Internet上。数据集成产品在一个公司的Internet计算机与SAP、Oracle和PeopleSoft等公司的后端系统之间提供“高速缓存”或数据分级。
数据集成提供了在一个企业主计算机上存储的后端信息的一幅镜像。当一个Internet客户需要检查一项订单的状态时,这项查询就被转移到数据集成软件。因此,并非总需要访问该企业的主计算机。数据集成软件拥有足够的智能,知道什么时候与主计算机保持同步以便使数据不断更新。为电子商务应用集成ERP数据是通过数据分级和直接访问ERP数据这两者的结合来完成的,它包括使用一个数据服务器和一些数据高速缓存器。数据集成软件以智能方式将直接实时的和分批的数据存取方法混和起来,以便从一个ERP系统中抽取数据。
数据从一个或多个源前进到一个或多个目标表以及信息类型(如XML),数据移动的步骤包括确定应该从中抽取数据的源、数据应当进行的转换以及向什么地方发送数据。用户通过一个图形用户接口来指定数据映射和转换。
由用户定义的程序控制每一块数据的移动并确定这种移动之间的内部相关性。例如,如果一个目标表依靠其他目标表的值,则使用一些程序来指定一个数据服务器应当按什么次序来管理这些目标表中的单个数据移动。数据移动可以被设计来以批量方式或实时方式运行,并由管理员来创建和管理,以控制ERP、电子商务、客户关系管理、供应链管理以及通信应用之间的数据移动。数据移动使用分布式查询优化、多线程、存储器内数据转换和并行流水线操作来提供很高的数据通过量和可伸缩性。例如,要管理抽取程序并从SAP软件中来执行批量数据抽取,可使用优化的ABAP代码(SAP的专有编程语言),不需要开发和维护定制的ABAP代码。
数据集成是企业进一步发展面临的问题。通过数据模型建模和相关应用技术在企业信息集成应用上作了一定的分析。在有效应用模型设计思想开发应用的同时,应重点把握以下几点:
(1) 模型的时效性:包括开发期模型和运行期模型,而运行期模型则显示了模型驱动的核心思想。
(2) 模型的进化性:它揭示了模型是否可以根据应用的变化而自我进行改变。
(3) 模型的层级性:随着系统的复杂性增加,模型可以由多层级构成。