直击企业数据集成技术

  作者:畅享网
2008/1/8 10:07:55
本文关键字: EAI 企业数据集成技术 SOA SAAS

与我们熟知的“信息孤岛”相比,“数据孤岛”形容的是IT环境中最基本元素—数据的离散状态。毋庸置疑,数据是企业最重要的信息资产,但是在现实环境中,企业数据往往会因天然的业务分隔或行政分划,或者是IT应用复杂性的增加而驻留在不同的应用程序、数据库和遗留系统中。如何把不同来源、格式和质量的数据通过逻辑或物理的方法集中起来,实现企业级数据的全面共享,进而为企业决策等高级应用提供支持,提升数据资产的价值,是数据集成技术肩负的使命所在。

除了集中企业内部分散的业务数据之外,数据集成还能够在并购、分拆等商业行为发生时充当IT边界变更后企业数据的“黏合剂”。对于现阶段频繁发生的企业并购行为而言,数据集成能够帮助这些企业在短期内实现应用整合。

以苏格兰的哈利法克银行和苏格兰银行合并为例,由于专注的金融服务领域具有明确的互补性,两家银行的结合被业界广为称道。但是要合并两家银行信用卡业务系统中的6亿份数据记录却是件异常艰苦的工作。为了实现信用卡业务数据合并的目标,两家银行启动了持续性的集成操作。首先,哈利法克银行将其核心信用卡应用软件从First Data Resources平台迁移到EDS平台;然后,利用甲骨文和Business Objects建立一个简单的报表数据库,并对3亿份记录进行了数据更新;最后,运用Informatica PowerMart套件所提供的ETL(抽取、转换和装载)功能建立新的数据库,并将剩余的3亿份记录添加其中。整个过程仅历时四个月,数据集成工具所提供的自动化建模、多数据源导入特性使合并工程的效率大幅提升。

多维度技术视角

数据集成与BI商业智能)、数据库、数据仓库技术存在紧密的联动关系,同时它也被认为是能够提升企业业务响应能力的关键技术之一。由于数据集成对业务敏捷化的关键支持能力,使其正在成为促进不同应用间协同的基本保证。要给“数据集成”下一个定义并不容易,对于具有不同技术背景、不同知识体系的人而言,其概念的差异性明显。

对开发人员而言,数据集成往往等同于数据联合,即把分散在不同位置的数据集中起来;对架构师来说,数据集成通常意味着应用消息的互联;对BI分析人员而言,它意味着数据的汇聚,以及数据清洗、规范化的过程;而对IT系统的使用者业务人员来说,他们希望数据集成并不是“服务”、“数据库”、“数据仓库”等概念的堆砌,而是真正数据语义的集中。

而从项目实施的流程与结果上看,数据集成需要拥有一个狭义的定义。SAS中国华东区解决方案经理张天峰认为,从严格意义上说,数据集成代表着不同系统、不同存储介质中的数据被集成到同质数据环境中,并以统一数据视图的形式予以展现。他还强调,数据集成并不是一项新技术,从有数据库开始就一直存在发展。“数据集成之所以在近期被中国用户广泛关注,主要是由于中国企业的数据积累已经达到一定规模,数据集成需求逐渐暴露所引发的。”他说。

Informatica中国区副总经理林杨则表示,无论立足于哪种视角,项目实施的范围如何,数据集成项目的进程都是要由业务来驱动的。数据集成项目实施的过程往往要经历业务流程的变更、业务逻辑的修改和应用规模的扩充,这决定了数据集成持续性部署的特性。在项目推进的各个阶段,其对业务运营的贡献是衡量数据集成的效果与价值的关键准则。



多元化技术路径

数据集成是企业数据战略的重要组成部分,其实现框架由不同层次和种类的技术所构成。其中,数据仓库ETL是一个重要分支。针对不同来源、不同格式的数据一致化和集成问题,ETL能够通过数据抽取、数据转换和数据装载的连续操作,实现对跨平台、多系统数据的高效集成。基于ETL的数据集成在企业中的应用非常普遍,但传统ETL工具基本上不具备实时处理能力,其数据抽取操作以定时从业务系统中抽取的方式进行。不过,随着实时分析与处理功能成为应用主流,具备实时消息处理、数据流功能的新一代ETL工具已经出现。

在实时能力方面,以XML为基础的实时数据整合技术更为擅长。这种消息队列技术最早应用在银行的票据交换系统中。实时数据整合与ETL的数据转换操作有所差别,前者只进行数据格式转换,不做内容转换。

据SAS的张天峰介绍,数据集成还包含一些基础层面的技术。例如,数据同步/迁移技术。以银行应用居多,该技术仅支持数据复制,应用的范围限于同质数据系统以内。另外,映像/同步技术支持以磁盘映像的方式实现数据的物理同步,同时支持实时和非实时操作,但不支持数据清洗和转换的功能。“ETL还有一个衍生的技术分支ELT(抽取、装载和转换),ELT宣称对传统ETL技术进行了改进,但两者没有本质上的区别。”他说。除此之外,从数据集市衍生出来的主数据管理也是数据集成应用的重要支持技术之一。

张天峰认为,在现阶段,ETL和消息队列是数据集成领域相对成熟的规范化技术,但技术产品化的程度仍有待提升。

依托平台跨越式集成

多元化的技术路径决定了数据集成部署方法的多样性。作为BI应用的基础工程,不同种类的数据集成技术会分阶段地在企业中进行实施,从而加剧了IT基础架构的复杂程度。

据Informatica的林杨介绍,目前数据集成项目有三个主要的实施角度:一是数据集成平台,由独立于数据库平台的软件供应商提供,能够实现跨数据库平台、多种应用系统的数据集成,其过程中用户不会受到数据库类别的限制,集成操作最为灵活和自由;二是ERP或数据库厂商提供的数据集成技术,主要是从数据库集成的角度出发,包含报表、查询等功能。其优点是在同品牌的应用系统(例如SAP、甲骨文)中具有一定的整合优势,但弱点是外部集成能力不强,兼容性差;三是基于手工编程的数据集成。也被称为“非企业级集成”,这种集成操作往往以项目为单位进行,标准化和规范性均较差。

林杨指出,目前手工编程方式在我国仍有80%左右的市场占有率,基本上等同于北美市场5~6年前的情况。“这种方式最大的弱点是,项目实施成果不能复用,只是单个项目受益,不具可扩展性”他说。

对于具有持续性、充足数据集成需求、同时渴望借助其发掘企业数据商业价值的用户而言,数据集成平台是一个明确的着眼点。林杨表示,企业的IT部门在数据迁移、数据整合、数据同步、数据仓库等不同的业务领域都会使用到各式各样的数据集成技术,但是要解决企业数据碎片的问题还是要借助统一的数据集成平台。

过去,IT部门通常基于单个项目实施数据集成,但针对不同的集成内容却采用不同的方法。例如一个团队采用ETL工具,另一个团队手工编写脚本和EAI(企业应用集成)代码,还有其他团队使用软件供应商的专用工具。如此一来,便导致了IT环境中一次性数据集成技术的剧增。数据集成技术的叠加让IT基础架构变得更加复杂和脆弱,同时也造成了其管理成本的大幅增加,一旦企业引入外包、SaaS等新的服务或应用,架构的复杂性会继续上升。

林杨指出,建立在统一平台和服务共享基础上的数据集成是许多大型企业的通用做法,同时也正在成为客户的主流选择。“数据集成平台赋予了IT部门对数据集成技术灵活调用和分配的能力,使集成操作的协调性大大增加。从长期看,降低了数据集成的成本,同时还能够满足企业在IT审计、法规遵从等方面对数据管理的需要。”林杨说。

平台级软件乘风起舞

在数据集成平台统一数据集成方法、实现技术重用性、提升整体数据管理能力的作用被肯定之后,引发了众多软件厂商的技术追捧。目前,市场上有多种可供用户选择的统一数据集成解决方案。与基于点需求和系统内部集成的工具软件相比,这些平台级软件共同的特点表现在,它们能够支持多种类型、结构和来源的企业数据集成,并且具备面向企业异构IT环境变化的应变能力。在确保系统整体安全性和高可用性的同时,采用基于元数据和开放标准的共享服务方法。

在企业从数据中挖掘更多业务价值的过程中,数据集成受关注的程度不断升温。而应用的推进也催生出了许多的技术交易与创新。作为信息管理领域的领先者之一,IBM面向数据集成进行了多次收购。例如,其在2005年收购Ascential,强化自身在数据交换、数据迁移、数据清洗等领域的能力。此外,IBM还收购了提供实时数据集成的软件公司DataMirror。最近,针对IBM最新的IOD(信息随需应变)架构,IBM Information Server数据集成平台级解决方案对收购技术和原有技术还进行了新一轮的整合。

一些BI领域的厂商也持有和IBM相同的想法,即向客户交付统一的企业数据集成平台,而非单纯的ETL工具。Informatica和SAS是其中的代表。Informatica致力于帮助客户解决数据碎片问题,是集成能力中心(ICC)最佳实践的倡导者。林杨表示,Informatica所提供的统一数据集成平台具备广泛的连接性,可以集成包括大型机、关系型数据、文件数据、应用程序数据、消息队列、XML和非结构化数据在内的多种类数据。通过可重用设计和统一的方法实现数据的访问、集成和提交,并最终成为SOA框架的一部分。

张天峰介绍,SAS所提供的高效数据集成平台能够以及时、经济的方法将异构系统内的信息孤岛整合起来。而这种操作可以在不依赖SQL语言的条件下,访问、抽取、过滤、清洗、汇总源自不同平台、不同格式的数据,同时提供支持快速开发、有效处理和更强大数据管控性能的平台和工具。例如交互式数据整合流程开发环境、专业的数据质量管理平台、统一的元数据管理工具、第三方数据库双向访问接口等。

数据集成要过几道坎?

对很多企业而言,数据集成是围绕特定的应用需求而实施的一系列独立项目。但正如我们前面所说的,这种一次性集成方法的累积、不合理的使用反而会增加IT应用架构的复杂性,制造新的数据碎片,带来新的管理难题。

数据集成现阶段面临着哪些挑战?作为一项“因复杂而生却要削弱复杂”的IT技术,数据集成需要化解由数据和IT应用持续性变化所导致的巨大前进阻力。

在数据方面,现实的情况是,数据来源的类型愈发广泛,数据格式更加多样。从传统视角看企业数据,主要集中在文件系统、数据库和消息队列中。而随着新应用类型的出现,注册表、监控设备、博客、Wiki、邮件、手机短信也成为了企业数据的不同载体。对于数据的使用者而言,他们希望从一个集中式数据库和通过基于SQL等通用标准的数据服务获取不同类型的数据,而不用关心数据到底存储在哪里,这大大增加了数据集成的难度。

数据格式方面,单纯的二维信息描述方式显得越来越“僵化”,难以适应变化业务的需求。空间数据、XML数据在数据描述上获得了突破,但是在拥有灵活性的同时,数据集成的难度也增加了,对于具有同一业务语义,但格式却不同的数据该如何进行集成?当我们需要将多种类的信息合并成一个实体时,集成技术需要完成高难度的操作。

在数据层之上,IT系统内的天然边界和业务区隔也会增加数据集成的难度。例如,企业的信息安全策略往往根据应用的保护等级和信任关系将其划分为不同的安全区域,而数据集成却通常需要跨越不同的网络或LDAP域,为此,在集成之前需要根据“数据访问协议”、“数据流向规定”等规划数据的采集措施。但目前尚没有类似的“统一跨域、跨网络数据访问规范”,数据集成需要根据每一个采集点单独定义集成任务,同时还要随着不同信任域的信任等级变化,反复地调整和配置。

虽然对于关系型数据库和XML数据而言,数据的提取相对容易,但是随着应用的推陈出新,企业数据变得无处不在,博客、电子邮件、Wiki、Word文档都成为他们的容身之所。它们在数据库之外,如何从这些混合了数据和用户界面的介质中提取出关键数据,往往需要数据集成人员和相关技术领域开发人员的分工协作。

另外,数据集成实施需要关注的问题还包括:如何选择合适的执行时机;如何在规避OLTP和OLAP高峰的同时,组织“快照”、“批量导入/导出”等任务。随着多芯、多核服务器的普及,集成技术也需要从串行时代过渡到并行时代。怎样为数据集成建立配套的监控与错误处理流程?如何设计完善且具备自动化能力的数据集成流程,并且为其配备补救机制?而在技术、制度和管理之外,数据集成还需要具有多平台、跨系统知识体系的工作团队,那么,这些问题或许是企业面临的最大挑战。

并非普适技术

虽然困难重重,但是数据集成技术正在不断成熟,用户已经能够从市场上的相关解决方案中获得具备整合能力的技术支持。而在正视数据集成挑战的同时,企业还需要明确的是,数据集成在现阶段并非一种普适性的技术,它不仅要求使用者具备一定的数据应用规模和复杂性,还需要投入较大的资金和人力。

林杨表示,现阶段Informatica数据集成平台的用户集中在大中型企业。他指出,不同规模的企业部署数据集成应用的思路会有所不同,但是应用的门槛相对明确。“大型企业往往选择‘自上而下’的方法,首先搭建数据集成平台,中型企业则更多地基于项目驱动,先在一定范围内实施,然后逐步积累,利用2~3年的时间使数据集成平台逐渐成型。但对于小型企业来说,全面数据集成的压力不大,手工编程、基于SQL的集成方式更为适用。”林杨还强调,这并不意味着小型企业不需要进行数据集成,只是从性价比等角度考虑,暂时不需要应用综合性的数据集成技术。

张天峰也认为,目前的数据集成应用主要集中在金融、电信、政府等重点行业。以银行业为例,SAS在中国最大的银行业客户拥有数十个TB的业务数据,而且数据逻辑非常复杂,需要借助数据集成技术进行数据的转换、清洗和提交。他认为,对于中小型企业而言,把数据集成项目交由系统集成商执行与自行购买相关软件相比更为经济和高效,而一些中小客户也喜欢采取“五五分账”的方法,即对关键数据集成采用ETL工具,其他的则使用手工编程完成。

也有用户认为,无论选择怎样的数据集成方案,实用和简洁都是最关键的。虽然每个服务和应用采用点对点的连接方式很容易造成IT环境的混乱,但是在信息化建设的初期,这未尝不是一个最快达成技术目标的选择。对IT环境相对成熟的企业而言,最好在实施集成前先充分了解业务部门对信息互联的需求,然后实施必要的统一数据治理。而无论集成项目的规模如何,都必须考虑建立相关的监控措施,以及当关键流程出现错误和异常时该如何处置。

与SOA及其他

今天CIO们需要与各式各样的技术创新打交道,SOA便是其中不可回避的一个。而SOA和数据集成有着紧密依存的关系,通过研究SOA解决方案不难发现,它们往往包含一些小型的集成方案,旨在帮助用户解决数据交互、数据清洗等问题。林杨认为,SOA所关注的应用和数据集成的数据是紧耦合关系。把SOA理念具体落实到数据层面,它要使信息能够随需应变,而这正是数据集成的任务。“统一的企业数据集成平台应该成为SOA的一部分,为IT应用提供信息服务支持。这要求企业在实施数据集成项目时也要引入SOA方法论,对数据的查找、整合、质量评估进行持续性的改进,同时关注项目之间的相关性和延展性。”林杨说。

“数据架构和应用架构紧密相关,良好的数据集成能够简化SOA对应用集成的实现。”张天峰说。但他也表示,SOA所倡导的分布式应用会增加数据集成的难度,存在一些冲突,对分布式异种数据的集成需要引入网格计算等概念。

从用户角度看,数据治理是数据集成发展到一定阶段的必要补充,否则,长期以来的数据和软件一体化的黏性让数据无法从服务和应用中剥离。总体而言,狭义的数据集成是更多地考虑如何进行数据互联,如何向应用屏蔽不同数据源的物理位置、通信协议和数据格式,更多关注技术问题;而数据治理则侧重在数据与业务语义、业务处理分析的层面之上。

编看编想

与变化博弈的数据集成

历史造就了数据孤岛,也将收复数据孤岛的使命赋予了数据集成技术。不断滋生的数据碎片会不断给数据集成技术制造难题,同时也催生出使其前进的无限动力。对数据集成项目的执行者而言,这样的任务可能并没有明确的终点,需要不断地与变化进行抗争。这些变化包括新应用的建立、数据库平台迁移/合并、IT应用规模的扩充,当然还有业务组织的拆分与购并。

无论你采取什么的技术路径,都需要与变化为伍,虽然任何的变化都会让你好不容易搭建的数据集成系统备受冲击,但你还是不得不学着适应变化,与其成为朋友。张天峰认为,数据集成的要务是,在数据流动的过程中解决复杂的数据转换和数据清洗问题,同时实现对海量数据处理的质量保证。林杨也表示,数据集成是典型的持续型项目,由于与各种业务应用都存在接口,数据集成的实践者需要在变化的环境中建立清晰的技术实现图景。

流动中的数据变幻莫测,它们的内容、质量、结构和定义都在不断变化着,而业务的复杂程度、项目周期的缩短以及更多数量和类型数据的涌入,不断制造出新的数据孤岛。因此,数据集成将成为一门企业需要持续修习的功课。明确这一点,可以让我们慎重考虑那些关注短视效应的选择,用更加长远的目光审视技术的发展并迈出坚实的脚步。

责编:李华星
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
推荐博客
创新平台技术,助力政企私有云..

创新平台技术,助力政企私有云建设金蝶中间件有限公司 奉继承 博士第16届软博会高峰论坛,2012.05.31……

畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918