|
再谈客户分群解读Qing 20061018 作为旁观者,看同事作客户分群解读的工作,也是别有一番感想。已经将过去总结的一些"小技"贡献出来,并讲解一番。但发现不是那么容易理解。 翻开以往的文章,发现大多说得真是"小技",是从如何方便解读、如何利用工具的角度去考虑,都是具体方法层面的。譬如作个什么样的图,对变量进行归类。但对于一个不熟悉分群是干啥的人来说,这些还是后续的事情。首先,他们似乎还不明白,为什么要进行分群解读,那些许许多多的变量,如何反映群体的特征。 为什么要分群解读这个问题,当然是比较虚的,没什么可说的,当然,也不容易说清楚。分群是一种对整体进行概貌分析的手段,通过聚类模型神奇地得到若干群体,这些群体之间总是有些区别,群体之间的区别最大,群体内部个体的区别最小。如此而已。如何表示这些区别,就得寻找那些能够反映它们的变量。并且,现在越来越发现,其实最重要的,也就是十个左右的变量。 同事问,用一两个变量来区别一个群体,是不是少了点。我想是够了,那就非常理想了,不大可能能够找出很多区别其他群体的变量,就怕一个变量都找不到。 我想需要对这些变量进行优化,加以分类。不是以前那种从业务角度或者变量形式分类,而是看这些变量反映群体特征的程度大小。看,有的变量是用来区分这个群体的,有的变量是表示所有群体共有特性,值的大小表示一种程度的。 也许这样表述不是非常清楚,还是来举例子。比如说有一群A,他的通话中漫游占比达到80%。而其他群体在这个变量上表现一般,大多在20%以下。而和他接近的,比如有一群B能够达到75%,再看其省内漫游比例这个变量。前者能够达到90%,而后一群只是30%,跟其他群差不多。这样,这两群就有了比较明显的区别。因此,可以称漫游比例是这两个群的"特征变量",而省内漫游比例是群A的"特征变量",而非群B的特征变量。 再比如"日通话次数",这能够反映群体的通话是否频繁。但极少的可能有好几群,极多的也有好几群。它大多只是表示这些群体的通话的频繁程度,却不好将它作为特征,例如这群通话少,那群通话多。可以称之为"基础变量"吧,值在所有群的分布从小到大,比较平均。此种变量诸如消费额、交往圈等。而那种"特征变量",表现出来的应当是大部分群体相当,只有少数群是异常突出的。 区分了这两种变量,解读的目的就是要挑选出每个群的"特征变量"。嗯,又深入了一步。 Qing 20061019 出去忽悠的时候,说起我们的模型,往往语气强烈地,并且表情夸张地说,"我们考虑了x百个变量"。我们向来是以数量取胜。 变量太多不一定是好事,说明没有重点。而且那些变量之间,大多还存在着些许关联。例如通话时长跟通话次数,这两者一般来说就是正比的关系。都是衡量通话量的因素。 以前,也就是几个月前,我还有一种认为,认为变量越多也就考虑的越周全?那时,也曾经整理过一些变量,并为之分类。但那些大多是从数据角度,将不同角度观察的变量进行变换组合,形成新的变量而已。但若谈到,每个变量都能够衡量客户的什么特征?没有这个答案。那个变量选择过程就像一锅大杂烩,捡起身边能够拿到的材料,青菜、胡萝卜、苹果、香蕉、枸杞、花生…,扔进锅里。有可能,会是奇特而创新的美味。但绝大的可能,是难以下咽的非食物。 还是从分群模型中的变量选择来谈起,这种聚类模型的特点之一,是分群的结果受输入变量的影响比较大。前面的做法,是先全面考虑变量,建模得出结果。这有点自上而下的味道了。现在,换一个思路,从哪些特殊群体来谈起。当然,还是选用电信行业的例子来说事,熟悉。 首先,闭上眼睛,默想五分钟。你能够从身边找到那些具备一些特征的手机通话者呢?有的人通话量高,有的低;有的长,有的短;有的喜欢白天打电话,有的喜欢晚上聊天;有的喜欢发短信,有的嫌发短信太费时间。有的人小心翼翼地使用它,因为是自己付钱,接到电话,看看,如果是熟悉的人,可能挂上电话,用身边的固话回拨过去。有的人就无所谓,即便身边有固话,也是拿起手机就打。还有的人,在地铁上经常可以看到,上班的时候,为打发无聊的时光,端着手机打游戏,或者翻看从网上下载下来的电子树。有的人,一天也听不到他的电话铃声。有的人,整天看到它将手机放在耳旁,或者带着耳机像是自言自语。有的人,讲起电话没完没了,声情并茂,有的人,简短的"嗯"、"好的"、"OK"就结束战斗。有的人,出差在外,大部分时间将通话呼转到本地的另一部手机。有的人,天南海北地跑——他的客户遍布中国。有的人,就在周边城市跑——他的客户都是就近发展的。有的人,就是固定和亲人朋友联系。有的人,交往甚广,一大堆客户、一大堆女朋友。有的人,黑白颠倒,晚上当白天过。有的人生活规律,公私分明,下班之后陪着家人,不打也接任何电话。有的人,看到好玩的新业务就尝试一把,哪怕两天后就退掉。有的人,坚持使用最原始、最简单的功能,语音+短信。有的人,多重身份多枪手,这部手机专门联系这个小蜜,那部手机专门联系那个情人。 枚举这么多特殊的"用户",肯定不止这些,还能够继续下去,没完没了。这些不同特点的通话者,有些可能是代表性的,很多人都是那样。有些可能真的是异类。但至于到底是代表者还是异类,可以通过最后的分群结果来看。 现在,就可以将枚举出来的这些通话者的"特点"挑选出来形成变量。 衡量通话量多少,日通话次数就够了,通话时长当然也能衡量,但这两个变量关联程度较大,取一个就够了。如果要衡量一个人是喜欢煲电话粥还是长话短说,可以通过单次通话时长来衡量嘛。这个人是喜欢晚上通话还是白天通话?那就搞一个白天/夜里的通话次数比例。这个人是不是喜欢发短信?可以通过短信量在此用户的业务构成比例来衡量,比如叫做 短信比例,可以简单地用短信相对通话量之比。同理,你想这个人是不是上网多,是不是发送彩信多,都可以综合一个上网流量比例或彩信比例,当然,如果一般来说,这些量都是非常小的话,可能也是没有什么意义的,但谁知道呢。这里存在一个问题,就是,是否需要为了加大这些小业务的重要性,而将这些比例的差异弄得大些。例如将分母的单位加大,对整个比例值的差异肯定有影响的。嗯,可能涉及到消除量纲的问题,例如基于折算业务量的计算。流量用KB,短信、彩信用条数、通话用分钟数等。后来总结这些变量的时候,在考虑总体业务成分的时候,不能有太多的业务,不用将短信、彩信一大堆业务都拿来作成分分析,只需要归成大类。例如就分成语音类和新业务类的就可以。 一个人,主要跟哪些人通话呢?看交往圈啊。与某个竞争对手交往圈占比、集团交往圈占比、固话交往圈占比、网内交往圈占比。他是主叫多,还是被叫多呢?主被叫比例啊。那种漫游的客户,在外地时候,是主叫多还是被叫多呢?用漫游时主被叫比例 。一个人,在漫游时,通话行为多少有些变化,除了主被叫,在通话时长上有没有什么特点呢?漫游时单次通话时长。漫游时是不是在乎接听电话,还是呼转出去呢,用漫游时呼转比例即可。 一个人新业务使用情况如何?新业务不少,能不能有一个总的值,用新业务跟语音业务一个比例呢?假设有这么个东东吧,新业务占比。其中,短信、彩信、WAP、上网、游戏…,哪些是他最常用的业务呢?各自进行一个占比吧。 可能,还得考虑行为波动因素。比如趋势如何?这基本只需要大方面的趋势,诸如通话趋势(次数)、新业务趋势(折算量),按照经验,不必细到诸如长途通话、漫游通话之类,新业务也不必细到具体什么业务。趋势是表明这个通话用户是发展可喜的,或是令人担忧的。大部分人可能通话行为平稳,而一部分起伏较大。有没有这样的变量来衡量此特征,姑且就算是幅度吧,同样考虑大方面的通话和新业务就可以了。 可以看到,这些变量都是反映行为特征。我想在分群中,是不应该将用户属性之类的作为变量放进去的。例如性别、年龄、是否高价值客户,因为那些属性本身就已经给他们划分群体了。纯粹使用行为变量来划分群体之后,可以为每群匹配这些属性变量,可以得到更有意思的信息。譬如得到一群喜欢煲电话粥的群体,和性别一结合,发现大部分是女性,那么其余那少量的男性朋友,也就成了稀有品种。(这话我想说明什么问题呢?自己都不明白了) 另外,也没有将消费考虑进去,因为消费涉及到其他套餐、营销活动的影响。例如一阵子,为某些客户办理了特别优惠的套餐。这时将消费作为变量考虑进去,似乎也不太公平,反倒可能产生副作用。 唉,这个问题没有想好。其实这种营销案优惠对行为本身也是有影响的,譬如你送了若干话费,一般情况下,当然也会刺激该用户的通话行为。不过从另一个角度,如果为了便于分析,使用纯粹的行为变量,可能是一种会得到更清晰的结果。因为,即便分出群来,也可以对每一群,是否办理优惠套餐的比例进行计算,那么对于那些还未办理套餐的,岂非就算是目标客户了?嗯,这么想加强我对使用纯粹行为变量来分群的观点。这样可以保持变量的纯净,使的变量之间没有太多的相互作用。 责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|