|
从属性到身份在做数据挖掘的时候,总是有个阶段——变量选择。在挖掘领域里面,这叫作变量,variable。但如果在平常的业务交流中,还会有另一种替代的说法——"属性"。关于什么是"属性",以前在ttnn曾发起过不少讨论(在这个group里面搜索便知)。不少朋友也对这个词的滥用表示唾骂,但没办法。在人们口语中,就是充斥这样的似是而非的术语。 这里不再纠缠"属性"究竟为何物,反正大家知道是那么回事就行了。可以将年龄是一个人的属性,也可以说使用xx业务是某个客户的属性。他就像一个标签一样,给一个东西打上标记。"唉,你就这类东西"。 如果这样说,其实属性跟上面提到的挖掘中的"变量"多少有些区别,好像属性多是指离散的,是定性的东西。而变量是连续的,是定量的。譬如一个人是男的,不是女的。这是性别属性,而一个客户的年龄,是23岁,这是连续的数值。其实本身,数据挖掘变量就分成这连续型和离散型的,但通常有一种"离散化"的操作,将连续变量转成离散变量。 曾经考虑过如何现对属性进行分类 (参见http://groups.google.com/group/ttnn/browse_thread/thread/cb3b2b912cf7a94f/64b5e0b5691c5475),最近又在做这方面的事情,正好回头将它再深入一些。 搞那么多属性干什么?做挖掘模型,能够表现得让人感到考虑周全。比如做客户分群和做产品关联得时候。这跟其他分类预测模型还不太一样,后者反正得到一个结果,提升率达到了即可,至于究竟那些变量(属性)是最起作用的,也是有人关心,有人不关心。但对于分群和关联分析,之前也介绍过一些解读的方法,确实,这些模型产生的结果如果不去解读,没什么意义。而这解读的结果,就是要将他们所依赖的变量,最重要的变量挑选出来,形成一种业务规则。例如"有一群客户,他们的特征是经常使用数据业务的,年轻的,消费能力并不太高的",或者说"使用xx业务的客户,有七成机会还会去使用yy业务。" 看吧,总结、分析客户的属性,这不是目的,最后是要从这些属性中抽象出有用的、易于业务理解的规则。用时髦的话来说,就是"数据转换成信息,信息升华成知识"。 信息到知识这条路经,可以将属性当作信息,而知识是什么呢?我想是身份特征。 从属性到身份特征,是一个分析的过程。属性只是体现了一种忠实记录,一个人在系统上登记自己是"男",那么我们就认为它的属性是"男"。但他究竟是男是女,谁知道。而一个人,他经常发送短信给自己喜欢的超女投票,那么也可以忠实地记录这个人有这个行为属性。从这些属性,能否深入一层,得到这个人的身份特征呢?能够的。想象一下,喜欢超女并且为之投票的是什么样的人?喜欢发送短信到陪聊服务的是什么样的人?行为总是能够反映一些人的特征。当然,其中肯定还是有一些脏数据,例如一些sp为了业务发展,自己使用自己的业务。这已经不是真实的"客户行为",但这些行为多少跟客户"真正"的行为模式上是有些区别。 分析这些东西,还挺有意思。 责编:刘庆 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|