|
【王顾左右言BI】一大堆名词儿,一大箱子工具——商务智能(BI)的技术简介(下)(王茁 顾洁)谈起商务智能,很多人和很多企业都会联想起你上一次介绍的各种各样的分析工具和多姿多彩的用户界面,以为这就是商务智能的全部或最重要的部分。其实,商务智能建设中最重要的不是表层的一切(那只是一张“中看的脸” 王茁(王):上一次我们介绍了狭义的商务智能技术工具,并约好这一次来谈数据仓库等商务智能基础技术。 顾洁(顾):是啊,我正准备洗耳恭听呢。 王:谈起商务智能,很多人和很多企业都会联想起你上一次介绍的各种各样的分析工具和多姿多彩的用户界面,以为这就是商务智能的全部或最重要的部分。其实,商务智能建设中最重要的不是表层的一切(那只是一张“中看的脸”),而是整体的架构和底层的基础设施。商务智能的技术基础的重要性是怎么强调也不过分的,它就象健壮的身体一样,虽然不如漂亮的脸蛋儿中看, 但却十分中用。商务智能和技术基础之间的关系就象房屋和地基之间的关系:房屋不能没有牢固的地基,商务智能不能没有完善的数据仓库和相关的数据整合和管理工具。 顾:我知道数据仓库是商务智能的基础,你能不能先介绍一下数据仓库呢? 王:好的。关于数据仓库,大家基本上沿用两个人的定义,一个是比尔·恩门的,一个是拉夫·金宝的。恩门是这样界定数据仓库的:“一个支持管理层的决策过程的、具有主题导向的、整合的、因时间而变异的、不变动的数据集合,”这一定义是1990年提出的,至今仍然相当准确;金宝认为数据仓库是“为查询和分析而特别结构的交易数据的复制,”这一定义比恩门的定义所提供的见解要少,深度要浅,但是却一样准确。 读者想了解然数据仓库的架构、数据仓库的收益、进行数据仓库建设的就绪程度评估、数据仓库的执行战略、数据仓库项目失败的原因、风险投资商对数据仓库不感兴趣的原因、数据仓库厂商和产品的选择标准、数据仓库技术的未来趋势等话题,可以读我们合作的新书《三位一体的商务智能——管理、技术与应用》的第五章。 顾:那么数据集市又是怎么一回事呢? 王:数据集市可以简单地界定为来自完整的数据仓库的、在逻辑上相关的数据的子集,这通常意味着这些数据子集与某一个商务流程或某一组相关的商务流程有关系。数据集市可以被看作来自数据仓库的、符合某些标准的数据。比如与最近三个月内所有购买订单相关的数据,或者与过去两年所有的运货有关的数据。因而,数据集市有时被看作是数据仓库的主题领域,这使得数据仓库的用户只需与他们自己的商务领域数据打交道,而不必被整个商务的数据所压倒。这意味着有很多可以从一个中央数据仓库获得数据的数据集市。如果我们把数据仓库看作是实际上的零售仓库的话,就可以把数据集市看作是展示厅。一个零售仓库装满了各式各样的货物,其中主要的考虑是让货物得到良好的组织和储存以便于进进出出。相反,展示厅的主要考虑是为了展示显示产品项目的价值并对总体上的顾客满意负责。仓库必须适用于储存所有不同用途的产品项目,而展示厅聚焦于具有某一特殊用途的项目。这一关于数据仓库和数据集市的类比非常管用,数据仓库的工作是储存大量的数据,很少考虑或不考虑顾客怎样观看数据,而数据集市的主要考虑恰恰相反,它聚焦于顾客的易使用性、敏感数据的分离、报告速度和数据的总体展现。 顾:随着企业朝着“实时企业”的目标迈进,数据仓库不能不改变其只提供历史性数据的传统,在这种背景下运营数据店应运而生,你能不能再介绍一下运营数据店? 王:运营数据店是通常用作数据仓库的暂时储存区的一种数据库。跟含有静态数据的数据仓库不一样,运营数据店的内容在商务运营的过程中不断更新。运营数据店是针对快速的、在小量数据的基础上进行相对简单的查询而设计的,与在数据仓库中、在大量的数据的基础上进行的复杂查询不同。运营数据店特别象人的大脑中只储存最近信息的短期记忆,相反,数据仓库更像储存那些相对永久性的信息的长期记忆。 运营数据店是纯粹运营性的建构,而数据仓库是纯粹信息性的建构。运营数据店由遗留应用系统环境提供数据。数据在进入运营数据店的时候被转换和整合,特别象数据仓库中的数据。运营数据店扮演着在运营环境中整合数据的作用。运营数据店代表着关于企业的最新一分钟运营情况的总体的、整合的视图。运营数据店对于全公司范围内的关键性的应用系统是非常有用的。从运营数据店中做出的决定的焦点是即刻的,而从数据仓库中做出的决定的焦点是中长期的。比尔·恩门认为运营数据店是支持企业对最新的、运营性的、整合的、总体的信息的需求而建立的具有主题导向的、整合的、变动的、显示当前值的、只有细节的数据的集合。 我们在书中对运营数据店的框架、与数据仓库之间的关系、种类、应用以及与实时企业之间的关系等问题都有介绍,有兴趣的读者可以参看。 顾:在商务智能的技术根基中还有一个重要的组成部分, 那就是元数据,简单地说元数据就是关于数据的数据,你是不是也介绍一下? 王:好的。简单地说,元数据确实像你所说的,是关于数据的数据。如果按严格的定义,元数据是指有关某一物体的特征的抽象层面的信息,这些特征包括物体的名称、位置、对企业的认知的重要性、质量或价值以及与其它物体之间的关系。许多企业都计划建立一个大的数据集市或数据仓库但是却没有好好地理解元数据的意义。例如,要想让一个数据仓库的数据库真正地被分享,必须对它的内容有一致的理解。再比如,一个数据元素的元数据,包括该元素的长度和意义,必须进行跟踪并达成一致。数据仓库的终端用户希望知道数据元素的来源以及通过提取、转换和装载工具对该数据元素作了那些转变。他们希望知道在商务智能工具中针对某一个给定的数据元素存在什么样的预建的查询。如果数据元素的源信息需要改变,比如其长度或计算或转换的方式等等,所有受到影响的用户都需要通知到。 所有这些行动都要求对元数据进行跟踪和管理。 同样,对元数据的重要性、种类、元数据库的分析、设计和开发以及元数据的整合方法等问题感兴趣的读者,可以参看我们的书。 顾:企业在建设数据仓库的时候还经常要用到数据提取/转换/装载工具(ETL),你能不能也简要地给我们介绍一下这方面的知识? 王:没问题。提取、转换与装载是指接入和操纵源数据并把它装进数据仓库的方法。在通常情况下,这三种独立的功能结合在一个单一的编程工具中。首先,“提取”功能从一个确定的源数据库中读取数据,并从该数据中提取出一个想要的子集;然后,“转换”功能利用规则或查阅表把获得的数据转换成理想的状态,或者先把获得的数据与其它数据结合起来,再把它们转换成理想的状态;最后,“装载”功能被用于把所产生的数据(数据子集中的所有部分或者只是变化的部分)写进以前可能存在、也可能不存在的目标数据库中。 数据仓库和商务智能应用软件的源数据来自各种不同的平台,这些平台又由各种不同的操作系统和应用软件管理着。提取、转换与装载工具可以用来获得暂时的数据子集,用于报告或其它目的。该工具也可以用来获得更加永久性的数据集合,用于填充数据集市或数据仓库、把数据库从一个类型转化成另一个类型、把数据从一个数据库或平台转移到另一个数据库或平台。提取、转换与装载过程的目的在于把来自各个不同的平台的数据合并到决策支持环境下的商务智能目标数据库中的标准格式中去。 顾:现在市场上有许多数据提取、转换与转载工具,企业用户该如何选择呢? 王:企业选择合适的数据提取、转换与装载产品不是一件容易的事,不仅要考虑到完成目前的项目的所需要的功能和特性,还要考虑到未来的需求。概括起来说,企业应着重考虑如下几个因素: 扩展性:要有轻松处理从大型交易处理应用软件中获得的、多个GB以上的数据的能力。
顾:我们在这两次的对话中,介绍了商务智能技术工具箱中的许多工具,不了解商务智能的管理人员和技术人员可能会觉得这一大堆名词儿令人头晕目眩。 王:希望我们将来能有更多机会跟读者进行更深入浅出的讲解。 顾:这当然很好,但是讲解不是万能的,正如朱熹诗中所写的:“纸上得来终觉浅,绝知此事要躬行。”希望广大读者能在商务智能项目实施和使用过程中真正地了解和掌握商务智能的技术工具。 (本文改编自王茁、顾洁的新著《三位一体的商务智能》的第五章) 责编:王茁 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 |
最新专题 首届优秀信息化产品及信息化最佳实.. .mod_B_1{background:rgba(0, 0, 0, 0) url("http://www.vsharing.com/bacohome/2015/cio.. 专家专栏 |
|