作者: Qing 20070911
BI领域,人们一直谈论的话题无非是数据仓库、数据挖掘、OLAP、ETL等等。谈论具体的事情比空谈当然要来得实在,比如谈应该如何建模,雪花模型跟星型模型的区别等。这些话题,清楚。当有人问,决策支持怎么作啊,这就是个不知道如何回答的问题,或者说,很容易谈到形而上的路子上去。再比如问,构建数据仓库是为了什么啊?
为了什么?就像中学政治课本里面的问答题一样,经常有这样的题目。那些问题有"标准答案",如果你回答的点跟它不同,扣分。现实生活中,没有标准答案,只能让人不断去思考。
有一次,我是这样回答这个问题的----"提供统一的数据视图"。如此回答,主要的出发点是数据仓库就是提供数据管理的服务,至于如何分析这些数据,不是它要干的。因此,用"统一的数据视图"来表达,应该是可行的。当然,对于这个回答,还缺少深入的讨论,至少没有谁来说,你这个说法是错误的,并指出错误的原因。怀疑这种说法的当然有,比如,一位朋友说,"'统一'这个词有问题,这个词有点专制的意味,破坏了权力的平衡,使权力集中成为可能。"
"我靠",我不禁感叹了一句,感叹这位朋友思维的跳跃性,我可从来没有想过数据仓库导致权力集中的事情,这真的有关系吗?于是我回答,"数据的集中并不代表权力的集中。"是啊,如果数据集中就是权力集中,那信息部门岂不是发达了,可是现状是他们不可能成为企业的权力核心。
这个问题就这么过了,没什么讨论的必要。
可后来我回想了一下,觉得并非没有必要。因为很少人想这个问题,数据仓库从生来似乎就是为集中而存在的,当初他的定义里面四项特征里面就有一项是"集中的",而且还号称要解决信息孤岛的问题。通过ETL将分散的、异构的数据,聚集到数据仓库里面。有谁怀疑数据仓库的集中?也许,从民主性的角度是一种怀疑点,这在上面已经说了。除此以外,还有很多可疑点,人们说,集中数据,可以提升访问速度,可以杜绝对生产系统的干扰,可以保持一份干净的数据。但为达到这些目的,是否只能通过集中数据来实现呢?
在传统的行业里面,存在仓库这种实体,因此在供应链管理里面,库存管理是个重要环节。这种仓库跟数据仓库确实是很相似的,虽然那些货物是移动,而数据是复制。现在有人创造出"零库存"的供应链,自己不必将销售的货物存放在仓库里面,只要客户发出订单,就可以整合下游供应商迅速组合成可以交付客户的货物。
这是种先进的供应链管理,借助这个比喻下,看看在数据仓库上进行分析,就像是一种落后的传统模式。也许,真的有一种更新的模式可以代替它。
似乎EII跟那种先进的供应链有点类似,它构建一个虚拟的数据仓库。当用户发出查询请求,它转发到相应数据所在的系统里面,得到数据,可能来自不同的多个系统,然后将这些数据再装配成用户需要的结果。理念不错,可还存在一些技术难度,比如响应速度,元数据管理等等难题。
当然,这是一种设想。一种事物的存在并非因为出现了一种更优事物而消灭,通常,这种更优的东西甚至是被阻碍的,特别是涉及到利益,破坏垄断。所以,你基本上不用指望IBM、Teradata、Oracle、HP、MS这样的数据库厂商去给你创造什么新的模式(也许他们已经想到了,却不跟你说),他们更加看重的是如何扩大自己的数据仓库份额,那么数据仓库就是必不可少的BI基础设施。
作者: John Zhu 20070911
说起这个使我不由得想起Kimball学派和Inmon学派关于数据仓库的争论。我个人比较支持Kimball的做法,因为它比较实际,在操作性上更容易实现一些,从而更容易成功。
作者: William 20070914
你说的有道理,其实现在厂家吹嘘的AEI,EAI模式已经是你所设想的内容,但是,其实是硬件设备无法达到这种实时性能,因此,需要耐心等候一段时间。
就像是SOA,明明大家知道是好东西,但是现在有多少人真正用了这个东西?一个技术的普及还是需要时间的,慢慢来吧。
责编:姜玲
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友