漫谈客户数据仓库的建立(上)
by AMT
孟凡强 编译
在建立和维护客户关系管理系统的过程中,客户数据库或数据仓库占有重要的地位。如果讲人是第一位的话,那么我们可以负责任地讲,数据的重要性是第二位的。客户数据仓库的价值所在,实际上也是客户关系管理的价值所在,那就是它把分散在企业内外的关于客户的数据集成起来,向企业及其员工提供了关于客户的总体的、统一的看法。在企业中客户数据可能存在于订单处理、客户支持、营销、销售、查询系统等各个环节或部门,产生这些数据的系统是专门为特定的业务设计的,并拥有关于客户的部分信息。客户数据仓库的建立可把这些信息集成起来。另外,在建立客户数据仓库时,有时还要录入企业外的数据,如人口统计数据、客户信用信息等,使得企业对客户的看法更加完整。
数据仓库建设是一项有挑战性的工作,而客户数据仓库建设出了符合数据仓库建设的一般规律外,还有自己的特点,下面我们就看一下客户数据库建设过程中要注意的问题。
总起来讲,客户数据仓库的建设和维护有四个方面的难点:
- 客户数据的集成。对来自不同信息源的客户数据进行匹配、合并是很难的,没有万能钥匙。
- 作为客户信息的重要组成部分,对姓名与地址的识别、匹配和合并有一定难度,需要专业工具和专业知识。
- 客户数据的更新具有自己的特点,它不是完全更新,也不是每次并入一部分新客户数据。
- 它需要两种工具。其一是数据转变工具,其二是数据清理数据。
一、客户数据的集成
客户数据仓库需要把企业内外的客户数据集成起来。从这些不同信息源中对个别顾客进行分析、识别,并寻求这些顾客间的相互关系,如有一些顾客可能有亲属关系。就客户数据集成来讲,企业需要对顾客进行匹配和合并的能力。
来自不同信息源的客户数据的客户标识是不同的,造成了对同一客户进行匹配的困难。这时,常用模糊匹配的算法和方法寻找相同的记录,进行客户匹配。来自不同信息源的客户信息所共同具有的客户信息片断可以用来进行客户匹配,如电话号码、姓名和地址等。有时,还要动用其它的客户信息片断,如为了判定某客户的地址发生了变化,需要比较进行匹配的客户记录的信用卡号码、出生日期和地址。
在对客户记录进行匹配时,如果对客户记录两两匹配的话,随着数据量的增多,计算量将大大增加。根据公式
(n2-n)/2
,当有5万条记录时,记录比较的次数为1,249,975,000。实际上,5万条记录是很小的。为了减少这方面的工作量,可以先对客户进行聚类将其分成许多部分,只有分在相同部分的客户记录才可以相互匹配。这将大大减少运算量。
通过聚类和匹配,如果发现了几个匹配的记录,就需要对这些记录进行合并。实际上,这也是实行客户关系管理的初衷,也就是把不同来源的信息合并在一起,产生对客户的总的看法,如账户信息、信用等级、投资活动、对直接营销的反应等。在对记录进行合并时,很多时候客户信息片断是重复的、一致的,这种情况较容易处理。但有时客户信息片断互相矛盾,这时需要为信息的合并建立一些规则。如各信息源的权威程度是不同的,经常账户上的地址要比退休账户上的地址权威一些,越接近当前日期的信息片断准确性可能越高,重复率高的信息可能越准确一些,如果三个信息源中的两个的顾客电话号码是相同的,那么重复的电话号码可能是正确的。
记录的匹配和合并的完整性和准确性是很重要的。如果没有对相同的客户进行匹配,企业会把一个客户当作两个甚至更多的客户对待,企业的客户数量就被夸大了。如很多的传媒给出的我国的股民数量是2400到2500之间,实际上,有人利用与本文类似的方法对此进行了研究,发现真正的股民数量不会超过560万。这是多么大的差距!根据美国META集团的研究,医疗机构的病历有5%
到30%
是重复的。另一方面,如果把本不应合并的记录合并了,这时对客户的看法也是歪曲的。这些不完整、不准确和不可靠的匹配都会导致不准确的分析结果和决策,导致企业费用的增加和利润的减少。如对客户的信用等级有着错误的认识会导致投资风险,对某个客户的价值没有充分的认识可能导致失去顾客,错误的记录可能会导致营销资源的浪费。
二、客户信息中的姓名和地址的集成
由于出生日期、身份证号码、社会保险号码经常难于获得或不充分,而姓名和地址却常常是容易获得的,因此,对于客户匹配和建立完整准确的客户数据仓库来讲,姓名和地址这两个信息片断是很重要的。
没有姓名和地址所进行的客户匹配是不充分的。很多用来识别客户的信息片断难于获得,如出生日期、身份证号码、社会保险号码等。即使获得了这些信息,可能也只是部分信息源有这些信息,或只有部分记录有这些信息段。另外,这些信息的可靠性也可能成问题。如客户的电话号码就经常发生变化。很多时候,客户给出的社会保险号码是错误的。
姓名和地址信息容易获得,是重要的客户标识,但它们比较复杂,是难于处理的数据类型。不同于出生日期,同一人的姓名和地址可能有不同的表示方法。如笔名或顾客随便给出的名字、中文名与英文名、地址的缩写或不同表示方法(如上海市延长路149号与上海大学延长校区是同一个单位)、地址的详尽与否、信箱还是门牌号、输入错误。如果客户是一个企业,其公司名和地址也常会发生错误,如企业名改变、联系人的职位和工作部门发生变化、企业名的缩写、总公司与分公司等。
即使各信息源的信息都是完整、准确的,而由于各信息源的数据格式可能并不相同,也需要对这些信息进行清理。清洗的方法是,把来自各个信息源的信息进行解析,分成更小的信息片断,如把姓名分成姓和名,把地址分成路名、路号、单位名称等。在很多情况下,有一些数据输在了错误的地方,或输入错误。利用姓名和地址解析工具,可以对信息片断进行合并和修正。
姓名和地址处理软件的基本工作内容应该包括:
- 对姓名和地址进行解析,分成更细小的片断,提高匹配和信息修正的准确性。如个人、公司、称谓等。
- 对姓名和地址进行标准化,提高匹配的准确性。如把“刘总”标准化为“刘总经理”。
- 修正地址的各个信息片断,如邮政编码、省市、街道名称等。
- 增加新的数据片断,如人的性别、国家号码。
- 重新格式化,以合并数据和建设数据仓库
上面对姓名和地址进行的预处理对准确地识别客户是很重要的,这种对姓名和地址的解析和清理大大提高了客户匹配的质量,使得遗漏和错误的匹配大大减少。对姓名和地址的匹配需要专业的处理工具。这种工具能力对匹配的质量和数据仓库的质量有着很大的影响。这方面的内容我们将在下篇介绍。 |