漫谈客户数据仓库的建立(下)

  作者:孟凡强
2001/11/12 10:17:18
本文关键字: 理论探讨


漫谈客户数据仓库的建立(下)

by AMT 孟凡强 编译

  1. 保持对已有客户的统一看法和添加新客户

与别的类型的数据仓库有着诸多不同,客户数据仓库的维护更具有挑战性。它是逐渐更新的,而不是一次性完全更新。这主要基于两个方面的原因:数据仓库所利用的信息源中的历史数据经过一段时间后可能被擦掉;在每次更新时,都重新进行客户记录匹配和重新建立数据仓库的做法工作量太大,不可行。如有的数据的更新是在晚上进行的,受到时间长度的限制。比较合理的做法是,在保留已有数据的基础上,每次更新时都加入新的数据。首先识别新数据是关于新客户还是关于数据仓库中已有客户,如果是新的客户数据,那么就要给这个客户一个独立的标识,在数据仓库中插入一行,如果是关于已有客户的数据,那么就要对这些客户记录的相关信息片断进行更新。

让我们把客户数据仓库的更新与销售数据仓库的更新做一个比较。每个既定的时间点,新的销售数据被加入到销售数据库中。在此过程中,不需要把新数据与已有数据进行匹配,不会对已有的数据进行修改。这种更新是全新数据的载入,比上面所讨论的客户数据的更新要简单。

通过上面的讨论,我们可以发现,对客户数据进行更新的软件工具应该具有如下一些方面的能力:

  • 把新数据与已有数据进行比较,鉴别新数据中的客户是新的还是数据仓库中已有的客户。
  • 给新的客户一个独立的标识,并把新的客户添加到已有数据中。
  • 如果数据是关于已有客户的,对已有客户的信息片断进行更新。
  • 更新的时候,可能还会用到已有的数据,如一个顾客的总的历史购买金额、所有客户账户的总额。

在选择产品时,第一点很重要。有一些软件工具进行客户匹配时,是把新数据与所有的已有数据进行匹配,这使得机器的负载很大,费时较长。与此不同,有一些产品把可能匹配的客户记录抽取出来,只把这些记录与新数据进行匹配,从而大大减少了匹配所需的时间。这种定期的匹配和更新称为同步化,它不需作数据仓库建设初期的数据处理工作,就能有效地把最新数据和已有数据进行同步化。但有一些工具并不能提供这种同步化能力。这一点是很值得注意的。

四、建设和维护数据仓库所需的两种工具

通过上面的讨论,我们已经发现了客户数据仓库的数据准备的几个特别之处:匹配与合并;姓名和地址的再加工;同步化和逐步的更新。下面让我们看一下建立客户数据仓库所需的两种类型的工具。其一是转换工具,其二是清理工具。这二者有很大的不同,但由于功能有交叉,很容易引起混淆。

转换工具满足了通常的数据仓库的建设和维护需求,我们通常熟悉的数据仓库工具属于这个行列,它的主要功能是数据抽取、转换和数据载入。但它没有姓名和地址清理、模糊匹配和合并的功能,与已有的数据库的同步化能力也比较弱。这些工具是为简单的数据抽取和载入服务的,客户合并的能力很弱。它的主要目标是为OLAP服务,而不是详细的客户水平的数据。

清理工具可以满足一些特别的需求,但没有提供通常的建设和维护数据仓库的功能。所有这种类型的产品都专注于姓名和地址,可以在一定程度上完成前面所讲的姓名和地址的处理工作,包括匹配和合并。但它的核心工作是清理和匹配,没有提供抽取、数据载入和更新、元数据管理的功能。

如果我们了解这些清理工具的来源,就会很明白为什么这些工具的重点放在了姓名和地址上。与转换工具的设计是为了建立数据仓库不同,大多的清理工具是为了邮件营销或直接营销、存放于主机上的数据合并(如数据的获得和合并)、客户应用程序转化(如在银行业)。

一般来讲,邮件和直接营销产品的地址更正能力是比较强的,而数据合并和转化产品的更正地址数据的能力比较弱,因为它们缺少地址数据库。这些产品清理姓名的能力比较强。

在处理和合并那些非姓名和地址数据方面,数据清理工具存在者差异。这也与产品来源有关。在邮件营销中,所处理的最重要的数据是姓名和地址,因此,由邮件营销软件发展而来的产品缺少匹配的灵活性,处理出生日期、信用卡号、账户号码等信息的能力较弱。它们的字段合并能力通常也比较弱。我们在购买软件时,常常会忽略这点,因为这些邮件营销产品常称为合并和净化(merge / purge)产品,这使得用户想当然地认为设计这些产品时的出发点是数据合并。实际上,在邮件营销中,合并的意义是那些匹配的记录被剔除出去,只需留下一条记录,按照这条记录的姓名和地址来发邮件。而在数据仓库的建立中,那些匹配的记录被合并在一起。另外,它们处理大量不需识别和匹配的数据(如销售数据)的能力是有限的。

总起来讲,清理工具对姓名和地址的处理和匹配的能力是很强的,但它本身并不是为建立数据仓库独身定制的。大多情况下,它们既不能发现、装载或更新相关数据,也不具有元数据管理能力。它们还经常缺乏足够的转换/计划(transformation / mapping)能力。

转换工具和清理工具的功能在某些环节上有着交叉,但它们大部分功能是互补的。在建设客户数据仓库的时候,需要这两种工具。购买这两种工具时,要考虑到如下两方面的问题:工具的集成能力;工具的价格。我们需要数据和元数据层次的集成,而且这种集成常常很费时间,成本很高。但这两种产品的结构经常与数据仓库的总体结构不相适应。集成能力弱经常会给项目带来风险。

这两种产品的价格比较高。由于预算的限制,有时因为对这两种产品的功能认识不清,结果导致没有同时购买这两种产品。缺少了清理工具,常常会产生严重的数据质量问题,甚至会导致数据仓库的失败。缺少了转换工具,元数据管理能力弱,需要人工经常性的干预,使得系统维护很困难,系统维护成本高。

功能

转换工具

清理工具

客户数据仓库所需工具

元数据管理

 

转换

较弱

姓名和地址的清理

 

模糊匹配和合并

通常不具有此功能

数据载入和更新

 

总起来讲,转换工具、清理工具和数据仓库建设所需工具的功能如表所示。对软件的要求主要是如下一些方面。

  • 转换能力和清理能力
  • 软件产品的提供和系统的实施,来自同一来源
  • 对客户数据仓库的建设有丰富经验的咨询或实施队伍
  • 节省费用的、集成化的解决方案,而不是分别购买这两种工具
  • 支持集成(模糊匹配和合并)的系统构架
  • 数据同步化能力
  • 在匹配和合并方面具有很强的灵活性和复杂度,能适应不同企业或不同的业务流程对匹配和合并功能的要求
  • 在地址处理中具有街道层次的更正能力。街道、村庄层次的数据可从邮政部门得到。

欢迎浏览 漫谈客户数据仓库的建立(上)

 
 
责编:fred
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

孟凡强专栏

rss订阅
孟凡强先生,畅享网CEO,于上海大学获得工学学士学位,于上海图书馆和上海科学技术情报研究所获得竞争情报专业的管理学硕士学位。孟凡强先生为AMT创始人,历任AMT咨询服务执行总监、AMT广州公司总经理、AMT CKO。著有《CRM行动手册:策略、技术和实现》、《IT规划:管理和IT的桥梁》两书,先后为包括上海贝尔阿尔卡特、浦东新区政府、广州市国家税务局、万科集团、广州地铁等在内的多家机构提供过咨询建议。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918