客户分群的结果出来了,需要解读。数据放在excel中。列上,是第一、第二…的群,没有名称,只有编号,正等着给它们起名字呢。行上,一行行的属性名称,得用下拉滚动条往下看。满眼的数字,要从中找出每个群的特征,区别于其他群的特征。得用点手段才行,不然,眼很快就得花了。
曾经和同事不约而同地用到一个方法——增加一些排名列。譬如有六个群,就增加六列,r1到r6,使用rank()函数,对每个属性值在六群之间的排名情况,因此每个排名列的取值范围在1到6之间。接着,使用筛选功能,就可以看每组排名靠前(筛选出1)或靠后(筛选出6)的属性,它们正是反映该群特征的。如果要更清晰,还可以为每种排名标上颜色。一般标上排名第一的和最后的也就足够,不然,满眼花花绿绿也不是容易分辨。
这种方法到是简单,不过还是不够特别直观,要用每群的排名列来过滤,还是不能在各群之间作个对比。而且,即使挑选出一些排名靠前的属性值,判断它是一支独秀,还是勉强胜出?这也不是容易的事。见下图(如果只见链接而不见图的话,可以参见附件cluster1.jpg)
因此,有一天试了用百分比堆积图形来表示这个结果,发现比较直观。此事,可以不用考虑排名列,在excel中选择每群的属性值数据作图,使用柱图中百分比堆积图,这种图的好处是可以显示每个"系列"在同系列中比重。所谓系列,是excel中作图的术语,在图中,一种系列就是一种颜色表示。在这副图中,系列就是每个分群,而"分类"就是属性。因为属性非常多,可能达到上百各,因此这个图将会是非常宽的。为了能看清每个属性的名称,有必要将图拉的很宽(只是这样有个不便——不能一眼看完所有的属性)。如下图(同样,见不着图,参见附件cluster2.jpg):
形成这个图形之后,判断那个群在那些属性上具有特长或特短就非常明显了,只要看它那一条的长度即可,傻子都能识别。有的是一支独秀,一根条子占去十之八九,那么这个属性肯定是该群的重要特征。有的可能不是特别明显,一种颜色的条子跟另一种颜色的条子长短相差无几,那就去找这两种颜色相差特别大的属性,那就是区别这两个群的特征。
介绍了两种辅助解读的方法,可还有一些前面的工作却对分群结果是否理想有更大影响。例如这些属性的分类。很明显,有些属性是绝对值,有些属性是占比值,有些是属性是标志(是/否)。对于绝对值属性,很可能是总是某一群特别高或特别低;似乎还是占比值更能反映出特征,某个群的国际长途比重大,某个群主叫比被叫多很多。可究竟应该将哪种变量作为更重要的呢?
应该还有一些更好的解读方法吧,猜想是否有一种数学方法,能够从那些杂乱的数中找出少量特殊的,那岂不是更简单?
责编:姜玲
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友