破茧成蝶:商务智能的前世今生

  作者:涂子沛
2010/3/15 16:44:01
一幅好的数据图像不仅能有效地传达数据背后的知识和思想,而且华美精致,如一只只振动翅膀的彩蝶,栩栩如生。


    结蛹:千呼万唤始出来之数据仓库

    决策支持系统面临的“瓶颈式”难题,是如何有机的聚集整合多个不同运营信息系统产生的数据。对这个问题的关注起源于美国计算机科学研究的另一所重镇:麻省理工学院。和卡内基梅隆大学一起,这两所大学先后为现代商务智能的发展奠定了基石。20世纪70年代,麻省理工学院的研究人员第一次提出,决策支持系统和运营系统截然不同,必须分开,这意味着决策支持系统要采用单独的数据存储结构和设计方法。但受限于当时的数据存储能力,该研究在确立了这一论点后便停滞不前。

    麻省理工学院的这个研究如灯塔般为实业界指明了方向。1979年, 一家以决策支持系统为已任、致力于构建单独的数据存储结构的公司Teradata诞生了。Tera,是万亿的意思,Teradata的命名表明了公司处理海量运营数据的决心。1983年,该公司利用并行处理技术为美国富国银行(Wells Fargo Bank)建立了第一个决策支持系统。这种先发优势令Teradata至今一直雄居数据行业的龙头榜首。

    另一家信息技术的巨头,国际商业机器公司(IBM)也在为集成企业不同的运营系统大伤脑筋。越来越多的IBM客户要面对多个分立系统的数据整合问题,这些处理不同事务的系统,由于不同的编码方式和数据结构,如信息孤岛,处于老死不相往来的状态。1988年,为解决企业集成问题,IBM公司的研究员Barry Devlin和Paul Murphy创造性的提出了一个新的术语:数据仓库(Data Warehouse)。

    一声惊雷,似乎宣告了数据仓库的诞生。可惜的是IBM在首创这个概念之后,也停步不前,只把它当作一个花哨的新概念用于市场宣传,而没有趁胜追击、进一步提出实际的架构和设计。IBM很快在这个领域丧失其领先地位,2008年,IBM甚至通过兼并Cognos才使自己在商务智能的市场上重占一席之地,这是后话。

    但这之后,更多的IT厂商垂涎于数据仓库的“第一桶金”,纷纷开始尝试搭建实验性的数据仓库。

    又是几年过去。1992年,尘埃终于落定。比尔·恩门(Bill Inmon)出版了《如何构建数据仓库》一书,第一次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库得以大规模应用的序幕。比尔·恩门不仅是长期活跃在这个领域的领军人物,还是一名企业家。此后,他的江湖地位也得以确定,被誉为“数据仓库”之父。

    比尔·恩门所提出的定义至今仍被广泛接受:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理中的决策制定。

    但江山代有才人出。比尔·恩门一统江湖没多久,风头又被拉尔夫·金博尔(Ralph Kimball)抢了去。1993年,这位毕业于斯坦福计算机系的博士,也出版了一本书:《数据仓库的工具》(The Data Warehouse Toolkit),拉尔夫·金博尔在书里认同了比尔·恩门对于数据仓库的定义,但却在具体的构建方法上和他分庭抗礼。

    比尔·恩门主张的是由顶至底的构建方法,强调数据的一致性,一上来,就要先创建企业级的数据仓库。拉尔夫·金博尔却说:不!务实的数据仓库应该由下往上,从部门到企业,并把部门级的数据仓库叫做“数据集市”(Data Mart)。两人针锋相对,各自的追随者也唇舌相向,很快形成了明显对立的两派。

    两派的异同,就好比华山剑法的气宗和剑宗。主张练“气”的着眼全面和长远,耗资大,见效慢;主张练“剑”的强调短、平、快,效果立竿见影。

    两人华山论剑的结果不难猜测,拉尔夫·金博尔“从易到难”的架构迎合了人类的普遍心理,大受欢迎,商务界随即掀起了一阵创建数据集市的狂潮。“吃螃蟹”的结果,有大面积的企业碰壁撞墙、也有不少企业尝到了甜头,攒了个钵满。潮起潮落中,两派又有新的融合和纷争,油灯越拨越亮,道理越辩越明,数据仓库的技术,也不断地得以丰富,到2000年,已经全面成熟。

    如蚕之蛹,数据仓库是商务智能的依托,是对海量数据进行分析的核心物理构架。它可以形象的理解为一种语义格式一致的多源数据存储中心,数据源可以是来自多种不同平台的系统,如企业内部的客户关系管理系统、供应链管理系统、企业资源规划系统,也可以是企业外部的系统和零散数据。这些不同形式、分布在不同地方的数据,将以统一定义的格式从各个系统提取出来,再通过清洗、转换、集成,最后百流如海,加载进入数据仓库。这个提取、转换、装载的主要过程,可以通过专门的ETL(Extraction, Transformation, Load)工具来实现,这种工具,如今已是数据仓库领域的主打产品。

    ETL工具和数据仓库理论的成熟,突破了决策支持系统的瓶颈,从此,商务智能的发展走上了顺风顺水的“快车道”,接下来,好戏连台上演。

    蚕动:联机分析之惊艳

    数据仓库出现以后,活跃在前沿的科学家一下子找到了自己的专属“阵地”,商务智能的下一个产业链:联机分析,如水到渠成般迅速形成。数据仓库开始散发真正的魅力。

    联机分析(Online Analytical Processing), 也称多维分析,本意是把分立的数据库“相联”,进行多维度的分析。

    “维”是联机分析的核心概念,指的是人们观察数据的特定角度, 举个例子,跨国零售商沃尔马如果要分析自己的销售量,它可以按地区国别分析、时间序列分析、商品门类分析;也可以按供货渠道分析、客户群类分析,这些不同的分析角度,就叫“维度”。

    其实,早在60年代,决策支持系统的先行者就开始探索多维分析的方法。1970年,第一个多维分析的产品就已经问世。它通过建立一个复杂的、中介性的“数据综合引擎”,把分布在不同系统的数据库联结起来,实现了多维分析,因而得名“联机分析”。1994 年,发明关系数据库的埃德加•科德再立新功,他立足数据仓库的新基础,详尽的阐述了构建联机分析的十二条原则,同时,因为有了数据仓库,多维分析的实现已经不再需要不同数据库之间的人为“联机”,因此,他将该项技术更形象的命名为“多维分析”。但“联机分析”已经深入人心,也就一直延用。

    多维分析技术的惊艳之美在于用户可以根据自己的需要创建“万维”动态报表。报表,一直是将数据转化为信息和知识最主要的手段之一。在多维分析技术出现之前,报表是由软件开发人员事先定制的,基于一、两个维度的分析,是简单报表;交叉的维度越多,报表就越复杂,而且不同维度的组合将产生不同的报表,IT部门无法全部定制。因此,当时的报表是静态的、固定的,残缺的,怎么也满足不了决策分析的全部需要。

    多维分析技术预先为用户创建多维的数据立方体(Cube),一旦多维立方体建模完成,用户可以快速地从各个分析维度获取数据,也可以动态的在各个维度之间来回切换或者进行多维度的综合分析。通过从不同的维度、不同的粒度、立体地对数据进行分析,从而获得有严密推证关系的信息。在多维立方体的构建和运算方面,曾在IBM工作过的吉姆•格雷(Jim Gary)多有贡献,他也于1998年获得了图灵奖。

    因为数据仓库,多维分析找到了真正的用武之地,如有源之水,活力四射。任何复杂的报表都可以通过鼠标的点击拖拉在瞬间之内从用户的指尖弹出,如玲珑剔透的水晶体,数据尽在手中,任意横切竖割,流畅的美感令人叹为观止。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

涂子沛 专栏

rss订阅
涂子沛, 信息技术经理人,专栏作家。毕业于华中科技大学计算机系, 曾在国内的信息领域和公共部门工作十年。后辞去公职赴美留学, 获卡内基梅隆大学公共管理硕士、信息技术科学硕士学位。现居美国匹兹堡,专注于数据仓库、商务智能和互联网研究等领域。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918