破茧成蝶:商务智能的前世今生

  作者:涂子沛
2010/3/15 16:44:01
一幅好的数据图像不仅能有效地传达数据背后的知识和思想,而且华美精致,如一只只振动翅膀的彩蝶,栩栩如生。


    破茧:数据挖掘--智能生命的真正产生

    随着数据仓库、联机分析技术的发展和成熟,商务智能的框架基本形成,但真正给商务智能赋予 “智能”生命的是它的下一个产业链:数据挖掘。

    数据挖掘是指通过分析大量的数据来揭示数据之间隐藏的关系、模式和趋势,从而为决策者提供新的知识。之所以称之为“挖掘”,是比喻在海量数据中寻找知识,就象从沙里淘金一样困难。

    数据挖掘是数据量快速增长的直接产物。80年代,它曾一度被专业人士称之为“基于数据库的知识发现”(KDD,Knowledge discovery in database)。数据仓库产生以后,如“巧妇”走进了“米仓”,数据挖掘如虎添翼,在实业界不断产生化腐朽为神奇的故事,其中,最为脍炙人口的当属啤酒和尿布。

    话说沃尔玛拥有世界上最大的数据仓库,在一次购物篮分析之后,研究人员发现跟尿布一起搭配购买最多的商品竟是风马牛不相及的啤酒!这是对历史数据进行“挖掘”和深层次分析的结果,反映的数据层面的规律。但这是一个有用的知识吗?沃尔玛的分析人员也不敢妄下结论。经过大量的跟踪调查,终于发现事出有因:在美国,一些年轻的父亲经常要被妻子“派”到超市去购买婴儿尿布,有30%到40%的新生爸爸会顺便买点啤酒犒劳自己。沃尔玛随后对啤酒和尿布进行了捆绑销售,不出意料之外,销售量双双增加。

    这种点“数”成金的能力,是商务智能真正的“灵魂”和魅力所在。

    1989年,可谓数据挖掘技术兴起的元年。这一年,图灵奖的主办单位计算机协会(ACM, Association of Computing Machinery)下属的知识发现和数据挖掘小组(SIGKDD)举办了第一届学术年会、出版了专门期刊。此后,数据挖掘被一直追捧,成为炙手可热的话题,并如火如荼的发展,甚至成为一门独立的学科走进了大学课堂,不少大学,还先后设立了专门的数据挖掘硕士学位。

    也正是1989年,著名的高德纳IT咨询公司(Gartner Group)为业界提出了商务智能的概念和定义,商务智能,指的是一系列以数据为支持、辅助商业决策的技术和方法。商务智能在这个时候完全破茧而出,不是历史的巧合,因为正是数据挖掘这种新技术的出现,商务智能才真正有了“智能”内涵,这也标志着其完整产业链的形成。

    如果说联机分析是对数据的一种透视性的探测,数据挖掘则是利用计算机算法对数据进行挖山凿矿式的开采。它的主要目的,一是要发现潜藏在数据表面以下的知识,二是对未来进行预测,前者称为描述性分析,后者称为预测性分析。沃尔玛发现的啤酒和尿布的销售关联性就是一种典型的描述性分析;考察所有历史数据,以特定的算法对下个月啤酒的销售量进行估计以确定进货量,则是一种预测性分析。

    化蝶:可视化信息的华丽上演

    随着数据仓库、联机分析和数据挖掘技术的不断完善,业界都认为,商业智能系统已经功德圆满,很好的完成了智能分析的使命,因此早期商务智能的产业链条只含有这三块。

    但技术无止境。

    进入21世纪以来,风生水起,新的技术浪潮又使商务智能的产业链条向前延伸了一大步:信息可视化。

    所谓信息可视化(Information Visualization)是指以图形、图像、动画等更为生动、易为理解的方式来展现和诠释数据之间的复杂关系和发展趋势,以便更好地利用数据分析结果。

    传统意义上的报表,格式单一,枯燥乏味,令人没有阅读的欲望。信息可视化主张,人的创造力不仅取决于逻辑思维,而且还取决于形象思维。数据如果能变成图像,就能在逻辑思维的基础上进一步激发人的形象思维,帮助用户理解数据之间隐藏的规律,为决策提供最优的支持。

    信息可视化的专家因此宣布,他们要让数据 “动”起来、“舞”起来!让数据变得“性感”!

    从最早的点线图、直方图、饼图、网状图等简单图表,发展到以监控商务绩效为主的仪表盘、记分板,到今天的三维地图、交互式图像、动态模拟、动画技术等等更加直觉化、趣味化的表现方法,短短的十年间,信息可视化已经发展成了一个独立的产业,其产品数不胜数,可谓绚丽多彩。

    信息可视化把美学创造的艺术原素带进了商务智能,给它锦上添花。一幅好的数据图像不仅能有效地传达数据背后的知识和思想,而且华美精致,如一只只振动翅膀的彩蝶,栩栩如生,刺激视觉神经、调动美学意识,令人过目不忘。

    今年2月初,《华盛顿邮报》对奥巴马政府新鲜出炉的2010年度预算进行了分析报道,它正是利用信息可视化的技术,抓住了读者的眼球。图形以各项收支的粗细不同表明了金额大小,形象贴切,左边是收,右边是支,中间的红色部分是赤字缺口,奥巴马收了多少钱,要办哪些事,各项支出的轻重缓急,一目了然。

    图2. 奥巴马政府2010年度预算开支的可视化展示

    作为一个新兴产业,信息可视化的发展潜力不容小觑。最近,谷歌的首席经济学家哈尔·瓦里安教授(Hal Varian)就一直在多种场合强调,下一个十年,最诱人的工作将是数据工程师,其中一种,正是数据可视化工程师。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

涂子沛 专栏

rss订阅
涂子沛, 信息技术经理人,专栏作家。毕业于华中科技大学计算机系, 曾在国内的信息领域和公共部门工作十年。后辞去公职赴美留学, 获卡内基梅隆大学公共管理硕士、信息技术科学硕士学位。现居美国匹兹堡,专注于数据仓库、商务智能和互联网研究等领域。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918