|
KXEN市场细分教程客户分群
客户分群是一个重要的商业问题,企业对不同的客户群要提供个性化的客户服务和产品,因此,在产品和服务的设计上,必须要对客户群有一个了解,所以,我们往往借助客户的个人资料,行为属性和消费信息等方面的属性,对客户进行分群,以加深对客户的理解,制定相应的营销策略。 本文借助KXEN来阐述客户分群中存在的一些问题。 KXEN操作界面 KXEN是一个引擎,所以,它有很好的API来供集成商使用,除此之外,它也提供两种最终用户的界面:KXEN 建模向导(JNI),一个用JAVA做的图形界面,最常用的,而且完全开源,客户可以根据需要进行定制,本文的示例也是借助这个图形界面;Kxshell,是运行KXEN脚本的命令行界面,这个界面可以作为建模向导的一个补充,在脚本中设置好参数后,直接执行即可。 KXEN建模向导是一种“step by step”的操作,只需简单选择参数,然后点击“下一步”即可,这与CLEMENTINE和SAS/EM的“拖拉式”方式不同,相比而言,KXEN的操作方式更为简单。 KXEN建模流程 如图1,选中“聚类”后,点击下一步, 出现图2界面, (图2) 在这里,完成两步工作,一是进行数据集的选择,二是完成数据集的分割方式的选择。KXEN支持多种数据格式,如文本,CSV,XLS,也通过ODBC支持来自不同数据库的数据,同时,对SAS的数据格式有很好的支持。KXEN在建模的时候不用额外的磁盘空间来存储数据,这是一种很好的处理方式。符合现在的Knowledge Discovery in Database的理念,数据直接在数据仓库内部处理,很好的利用数据仓库的性能,节省硬件成本。 (图3) 在建模方式上,KXEN通过图3的方式,把初始的数据集按一定的比例分为3个子集,主要的目的是进行模型的选优以及最后的模型性能汇报。KXEN的建模是自动化方式,不需要进行模型的参数设置,KXEN引擎采用结构风险最小化理论,找到最佳模型。 (图4) 点击下一步后,就是数据的导入界面(图4),可以进行数据的类型识别,自动识别的过程可能有一定的误差,当进行了正确的定义之后,可以把正确的定义保存为新的数据文件,下次把这数据描述文件(相当于元数据文件)也载入就可以了。在这个界面,还可以在建模之前进行简单的数据探索,了解数据的基本分布形态,以进行合适的预处理。KXEN的一个非常大的优势是有一个自动预处理的模块,称作K
(图6) 下一步(图6)是变量的选择界面,这里要说明的是,KXEN支持两种分群的方法:有监督分群和无监督分群,分群一般来说都是无监督的学习方法,那么,有监督分群是什么意思呢?举个例子,假设要对一些人进行分群,有如下属性:年龄,婚姻,工作状况。那么婚否这种字段,应该定义为一个什么样的数值呢?结婚记作0,未婚记作1?还是相反?或者是其它的数值?也就是说,没有一个目标变量,我们就不能做这样的定义。一般的处理方式是把这样的指标离散化,可是这样是不正确的,我们不能简单的认为婚否就有本质的不同。譬如,如果我们想把客户按照收入进行分群,可能婚否的指标就很重要;如果把客户按照身高进行分群,那么婚姻状态的指标就不太重要了。对于不同的分群目标,我们要把各个维度数量化,这种数量化要能够反应维度对目标的影响。如果我们要求最后的分群结果基本是高收入群,中等收入群,低收入群,那么,我们就可以把年收入作为目标变量(分群的监督变量),这样,依据此变量,对于解释变量KXEN就可以做一些预处理,进行重新编码,这种编码是依据目标变量进行的编码。 当然,如果没有监督变量,那么非数量化的维度就只能简单离散化处理了。图:针对监督变量的编码方式是KXEN独特编码技术的一个示意。 (图:针对监督变量的编码方式)
(图7) 点击下一步(图7),就进入了分群参数的设置,只有一个参数,就是群的数目。另外一个选项:“计算SQL表达式”,这再次显示了KXEN的过人之处,最基本的Kmeans聚类的结果是不能用SQL表达式来表述的,但是,SQL表达式却增强了结果的解释性,是把聚簇的结果“立方体”化,这样,每一簇都是一个立方体,就可以用各个维度的限定语言来描述群的特征了,尽管用SQL表达式的表述对于模型的性能稍打折扣,使得一些点不能依照这个规则进行分群,但是却十分可取。
(图8) KXEN的运算速度非常快,分群完毕后,就是模型的结果显示,对于模型的结果解析,再次显示了KXEN的过人之处(图8)。一般的工具只是把模型应用到新的数据集,得到预测结果,而没有花费精力去进行结果的解析。 对结果的解析上,把结果尽可能的转化为对商业用户有意义的解释,这是非常重要的,没有这一点,算法仅仅是算法,数据挖掘也不是商业智能。 模型建成之后,要做的就是:模型解释,模型应用,模型部署。 模型解释:模型建好之后,重要的是对模型的解读,这种解读不只是数学上的解释,而且应该是商业上有用的解释,KXEN对于模型的解释,都是基于商业角度的,对业务人员真正有用的解释。
模型概述中是对模型的一般描述,需要说明的是KI和KR两个指标,这是KXEN特有的计算模型性能的两个指标,在KXEN中,有监督分群和分类/回归都有这两个指标,KI代表模型的预测能力,KR代表模型的稳健性,两个数值都在0-1之间,越大越好。KI和KR比一般的指标(相关系数,正确率等)有很大的优势,KI太低,说明自变量不能包含目标变量的信息;KR太低,说明训练的样本不够。一般来说,一个模型的KR值要在0.9以上,模型才是可靠的。在有监督分群中,KI代表分群最后的结果是否是把目标变量不同的值分开来。 在模型图形当中,有七种图形来表示模型的性能如何。用户可以根据需要进行选择。 在“变量区间重要性”中,可以看到每个变量的每个区间对目标的影响如何?是正影响还是负影响。 类谱是分群中最重要的解释结果。变量的SQL语句的描述使得对群的理解更直观。
而下面的群体重要变量描述非常有用,可以显示每个客户群中某个变量的分布与这个变量在所有客户中的分布的差异。如下图可以看出,群体1就是一个“结婚群”。 统计汇报是所有指标的综合,包括对数据集的描述和模型的描述,用户可以根据需要把有用的结果输出为PDF或者文本。
最后的模型参数是为开发者准备的。 模型应用:模型解读之后,下面就是模型的应用,把模型应用到新的数据集上,得到一个预测的结果。在KXEN的模型应用中,有三个部分,分析偏差是分析训练模型得到的数据集跟应用数据集是否存在某个维度的数据分布偏差,如果有太大的偏差,则用模型来进行预测可能会有一定的问题。 模型部署:得到模型之后,更多的人是用应用模型,所以,要把模型部署出来,KXEN的模型部署功能强大,可以部署成KXshell识别的脚本,用KXSHELL运行;也可以部署成C,JAVA,PMML,HTML等语言,嵌入到企业的业务系统当中。 责编: 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|