刘庆 20060508
假期过去了。刚回到北京,处理一些杂事,和朋友小聚,也挺悠闲。可头脑似乎还没有清醒过来,昏昏沉沉的。
因此,也不想太耗费脑筋去深入思考,五一之前yoyo的这个问题,其实我在写完数据源分析的时候,就有打算,写写挖掘中的数据探索。可自己没有太多的实践,不好瞎喷,即便是同事完成了这个探索,也无法抽象出其中的思路。
上个月,同事给我一份数据探索报告,word格式的,19页,贴满密密麻麻的数字。看了第一、二页,在往下就有些范晕,硬着头皮再看三、四页,决定不再看下去。这不是一份非常理想的数据探索报告。
挖掘中的数据探索,我认为跟数据源分析这种探索一样都是分析的过程,因此仍然使用分析三步曲来衡量。这份19页的文档似乎是平铺直叙,而最后也没有得出什么结论,只是从不同的角度来统计出一些数据。如此,分析的第一步——目的,在这份数据探索中就是缺乏的。开始我以为使自己耐心不够,看不下去,后来还有几个人也表示看不下去,这才释然,原来不是自己懒惰啊,呵呵。后来,探索者又重新将这份文档整理成ppt,一方面条理、主次清晰一些,另一方面并给出结论性的东西——哪些数据范围是适合我们用来建模的。
多少,可以从这个数据探索报告中看到一些探索者的分析思路,大概有两条路线。首先是分析符合某种条件的特定用户群的在全体用户中的占比分布,以及趋势。第二条路线是通过锁定用户群分析趋势变化,所谓锁定,这似乎不是一个通用的术语,它的含义是指在某时间点符合某条件,区别于第一条路线,那是任何时间符合某条件的。
当然,我不知道这样的分析思路是否有重大意义,没有证明,但至少已经有思路了。
这份报告给出了建模数据的约束条件,撇开实践,谈心目中挖掘数据探索的目的,我认为应当还有辅助定义业务目标,例如什么叫做"客户流失",是客户状态标志为离网就算流失,还是消费降低到某个标准就是流失?如果是后者,这个标准是多少?
另外的目的就是变量的选择,"变量"是数据挖掘中的术语,其实跟上个月大肆谈论的属性是很类似的。虽然,从业务经验上,可以给出一些"变量",但那时大多都在业务层面,如何细化到物理层面?现有数据是否能够给出这个变量?这应当也是数据探索要给出的答案吧。譬如说考虑竞争对手模型的时候,从业务上期望能够将竞争对手的长途、漫游通话时长作为变量输入,但从现有数据上,恐怕不能支持,只能舍弃。
关于挖掘的数据探索,暂时只有这点水,以后再继续总结吧。
而yoyo的一个感慨,说搞数据挖掘模型的人很牛气,我也有这样的感觉。可能主要的原因是两者说得语言不大相通吧,挖掘模型的人多多少少偏向数学语言,跟平日里多接触的说计算机语言的还不大一样,跟说业务语言的可能更加不同了。
看,如果一项工作对外部是不透明的,是个黑盒子,那么拥有这个黑盒子的人就会牛气。挖掘模型对于软件设计、实现者会是如此;而软件设计者对业务使用者何尝也不是如此牛气呢?
责编:姜玲
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友