漫谈客户数据仓库的建立(下)
by AMT
孟凡强 编译
保持对已有客户的统一看法和添加新客户
与别的类型的数据仓库有着诸多不同,客户数据仓库的维护更具有挑战性。它是逐渐更新的,而不是一次性完全更新。这主要基于两个方面的原因:数据仓库所利用的信息源中的历史数据经过一段时间后可能被擦掉;在每次更新时,都重新进行客户记录匹配和重新建立数据仓库的做法工作量太大,不可行。如有的数据的更新是在晚上进行的,受到时间长度的限制。比较合理的做法是,在保留已有数据的基础上,每次更新时都加入新的数据。首先识别新数据是关于新客户还是关于数据仓库中已有客户,如果是新的客户数据,那么就要给这个客户一个独立的标识,在数据仓库中插入一行,如果是关于已有客户的数据,那么就要对这些客户记录的相关信息片断进行更新。
让我们把客户数据仓库的更新与销售数据仓库的更新做一个比较。每个既定的时间点,新的销售数据被加入到销售数据库中。在此过程中,不需要把新数据与已有数据进行匹配,不会对已有的数据进行修改。这种更新是全新数据的载入,比上面所讨论的客户数据的更新要简单。
通过上面的讨论,我们可以发现,对客户数据进行更新的软件工具应该具有如下一些方面的能力:
- 把新数据与已有数据进行比较,鉴别新数据中的客户是新的还是数据仓库中已有的客户。
- 给新的客户一个独立的标识,并把新的客户添加到已有数据中。
- 如果数据是关于已有客户的,对已有客户的信息片断进行更新。
- 更新的时候,可能还会用到已有的数据,如一个顾客的总的历史购买金额、所有客户账户的总额。
在选择产品时,第一点很重要。有一些软件工具进行客户匹配时,是把新数据与所有的已有数据进行匹配,这使得机器的负载很大,费时较长。与此不同,有一些产品把可能匹配的客户记录抽取出来,只把这些记录与新数据进行匹配,从而大大减少了匹配所需的时间。这种定期的匹配和更新称为同步化,它不需作数据仓库建设初期的数据处理工作,就能有效地把最新数据和已有数据进行同步化。但有一些工具并不能提供这种同步化能力。这一点是很值得注意的。
四、建设和维护数据仓库所需的两种工具
通过上面的讨论,我们已经发现了客户数据仓库的数据准备的几个特别之处:匹配与合并;姓名和地址的再加工;同步化和逐步的更新。下面让我们看一下建立客户数据仓库所需的两种类型的工具。其一是转换工具,其二是清理工具。这二者有很大的不同,但由于功能有交叉,很容易引起混淆。
转换工具满足了通常的数据仓库的建设和维护需求,我们通常熟悉的数据仓库工具属于这个行列,它的主要功能是数据抽取、转换和数据载入。但它没有姓名和地址清理、模糊匹配和合并的功能,与已有的数据库的同步化能力也比较弱。这些工具是为简单的数据抽取和载入服务的,客户合并的能力很弱。它的主要目标是为OLAP服务,而不是详细的客户水平的数据。
清理工具可以满足一些特别的需求,但没有提供通常的建设和维护数据仓库的功能。所有这种类型的产品都专注于姓名和地址,可以在一定程度上完成前面所讲的姓名和地址的处理工作,包括匹配和合并。但它的核心工作是清理和匹配,没有提供抽取、数据载入和更新、元数据管理的功能。
如果我们了解这些清理工具的来源,就会很明白为什么这些工具的重点放在了姓名和地址上。与转换工具的设计是为了建立数据仓库不同,大多的清理工具是为了邮件营销或直接营销、存放于主机上的数据合并(如数据的获得和合并)、客户应用程序转化(如在银行业)。
一般来讲,邮件和直接营销产品的地址更正能力是比较强的,而数据合并和转化产品的更正地址数据的能力比较弱,因为它们缺少地址数据库。这些产品清理姓名的能力比较强。
在处理和合并那些非姓名和地址数据方面,数据清理工具存在者差异。这也与产品来源有关。在邮件营销中,所处理的最重要的数据是姓名和地址,因此,由邮件营销软件发展而来的产品缺少匹配的灵活性,处理出生日期、信用卡号、账户号码等信息的能力较弱。它们的字段合并能力通常也比较弱。我们在购买软件时,常常会忽略这点,因为这些邮件营销产品常称为合并和净化(merge
/
purge)产品,这使得用户想当然地认为设计这些产品时的出发点是数据合并。实际上,在邮件营销中,合并的意义是那些匹配的记录被剔除出去,只需留下一条记录,按照这条记录的姓名和地址来发邮件。而在数据仓库的建立中,那些匹配的记录被合并在一起。另外,它们处理大量不需识别和匹配的数据(如销售数据)的能力是有限的。
总起来讲,清理工具对姓名和地址的处理和匹配的能力是很强的,但它本身并不是为建立数据仓库独身定制的。大多情况下,它们既不能发现、装载或更新相关数据,也不具有元数据管理能力。它们还经常缺乏足够的转换/计划(transformation
/ mapping)能力。
转换工具和清理工具的功能在某些环节上有着交叉,但它们大部分功能是互补的。在建设客户数据仓库的时候,需要这两种工具。购买这两种工具时,要考虑到如下两方面的问题:工具的集成能力;工具的价格。我们需要数据和元数据层次的集成,而且这种集成常常很费时间,成本很高。但这两种产品的结构经常与数据仓库的总体结构不相适应。集成能力弱经常会给项目带来风险。
这两种产品的价格比较高。由于预算的限制,有时因为对这两种产品的功能认识不清,结果导致没有同时购买这两种产品。缺少了清理工具,常常会产生严重的数据质量问题,甚至会导致数据仓库的失败。缺少了转换工具,元数据管理能力弱,需要人工经常性的干预,使得系统维护很困难,系统维护成本高。
功能 |
转换工具 |
清理工具 |
客户数据仓库所需工具 |
元数据管理 |
√ |
|
√ |
转换 |
√ |
较弱 |
√ |
姓名和地址的清理 |
|
√ |
√ |
模糊匹配和合并 |
通常不具有此功能 |
√ |
√ |
数据载入和更新 |
√ |
|
√ |
总起来讲,转换工具、清理工具和数据仓库建设所需工具的功能如表所示。对软件的要求主要是如下一些方面。
- 转换能力和清理能力
- 软件产品的提供和系统的实施,来自同一来源
- 对客户数据仓库的建设有丰富经验的咨询或实施队伍
- 节省费用的、集成化的解决方案,而不是分别购买这两种工具
- 支持集成(模糊匹配和合并)的系统构架
- 数据同步化能力
- 在匹配和合并方面具有很强的灵活性和复杂度,能适应不同企业或不同的业务流程对匹配和合并功能的要求
- 在地址处理中具有街道层次的更正能力。街道、村庄层次的数据可从邮政部门得到。
|