如何将连续值分段

作者：姜玲

2007/7/2 14:25:48

本文关键字：案例交流

作者: Qing 20070612

将连续的数值离散化成为分级，这是经常会遇到的一个分析动作。因为连续的数值不太容易让人理解，能够掰着指头数出来的级别数则容易让人懂一些。比如在做OLAP的时候，想看看不同消费水平的人数量几何。这里的消费水平，便是将连续的数值离散化了。原来是1到2000，皆有可能的取值，甚至还有小数，变成10个以内的级别，如50块以下一段，50－200一段，200－500一段...如此。显然，这种离散的段将成为一个维度，可以从这个角度观察其他度量。

关于如何将连续的值分成离散的段，没见着有什么约定俗成的方式。

有人喜欢从数学角度，似乎确实有人在研究如何从一串数值里面切成几段的。不过很多让人能够接受的分段，是业务上容易理解的。这种分段都可以凭经验划分。例如对于月消费，50块钱一段应该没有问题，如果是月收入呢，可以用500块钱分成一段，考虑到在3000以内人数众多，可以一直用这个数来分，到了3000以上，人数上了，便可以用1000块钱作为一段。

这都是凭感觉，那么有没有可以量化的东西呢，我想应该有所依据。比如上面的例子里面，虽然是凭经验，但已经结合了一个考虑，大概在3000的时候，人数的分布有个讲究。比如，80％的人在3000以下----用到了二八原则。

近来遇到一个需要将信用评分划分成信用级别的事情，属于这类问题。

其实在分级之前，我已经初步有了一个想法，分成5级。为什么呢？因为这是客户容易接受的，在金融行业里面不也是有五级吗，因此，这里借鉴一下。于是，问题便演变成为如何将0到1之间的浮点数划分阈值，区分成可以解释的，比较清晰的五个等级。

级别从A到E，信用逐步降低，分值从0到1，逐步提升。当然，有个明显的前提，信用好的是占据了大多数，只有少数害群之马是被认为信用差的。因此，我想，他们应当被冠以E级，或者D级。中间不好不坏的，当然就是C级。那么，D、E级大概占多少比例呢？5％应该可以接受。

于是，对信用模型打分结果首先进行等分分值的频次观察。将分值分成每0.01一个段，观察人数。结果发现，前两个段，0.01和0.02占据了80％，真是不好意思，怎么正好跟二八原则挂上构呢。于是，初步决定将这两个段分别作为A和B级的分值。接着还有20％，如果按照前5％作为D、E级，那么中间着15％的人，当然就算作C级。

凭什么就是5％呢？要知道，这仅仅是之前的猜测。于是，在对人数进行等分观察分值的变化，将所有客户按信用评分排序，均分成100组，每组的客户数量大致相同。发现，分值在一直到96组之前，都是平平坦坦，平稳增长，但是到了96组的时候，不得了，有个明显的观点，从0.049左右，猛增到0.4，然后增加到0.7，再到1。OK，找到了，就是在0.05这道槛。它就是区分C和D级的界限。和当初的设想很接近，信用最差的两个等级占了4％。

在做完这次分级之后，试图总结两点：

1、通过等分数值的频次分布来，结合二八原则，决定主要（频次多）的级别；
2、通过等分人数的数值分布，观察显著变化的点，决定边缘级别（频次少）的级别；

剩下的就是其他级别。当然，也可能就上面这两个已经重叠了，例如发生显著变化的分值，在60％的客户就开始了。这样，我想可以选一个策略，要不以二八原则优先，要不以分值变化拐点为优先。这根本不重要，重要的是如何让级别的划分看起来像那么回事，确实不是乱盖的。

不知道总结的这两点适用范围多广，但应该能够适用大多数情况，这也就够了。

作者: Mr.Somebody 20070613
庆兄没有在文章里面说信用评估应用在哪里，我假设一下是为了信用卡或者是贷款的发放决策（0，1），而不是信用或者是贷款的额度决策。

为什么会与二八原则挂上钩呢？庆兄或许重新看看数据，看看是不是本来目标值（0和1）的分布就是大概20/80呢？

为什么要划分五个等级呢？从信用评估的角度上看，决策的结果有两种，给和不给。如果单纯以模型预测的值来做决策的话，两个等级就够了。如果以模型+决策
树的方法的话则或许有必要多划分几个等级。

为什么要给最后的4%再分两个等级呢？分完之后能够在D和E之间找出显著的区别并据此加入不同的决策规则吗？最终能被应用上这些规则并有不同的决策结果
的（潜在）客户有多少呢？相同的问题也可以问在等级A B C 上。

作者: Qing 20070613

这个问题切中要害，我试着回答一下。

这个模型并非用于信用卡或贷款是否发放，是在电信行业用的，用以决策话费透支的额度。如果深入探讨这个问题，很有意思。究竟该不该用一个信用度或者信用等级来决定透支额度？我现在不敢说，但使用信用等级来决定这个额度显然是比较简洁明了的。A级可以透支1000，E级不允许透支……

至于为什么要分成5个等级，为什么跟二八原则挂上勾，主要是处于让这个等级划分容易理解。但又不单是，如果说理解，当然就是信用好、差两个等级最明白了。但仅仅两个等级又太少，不够细化。要作出这个选择，必然在1－9之间选择，甚至是1－7之间，因为人最容易一下子接受的就是不超过7、9个概念。另外，结合业务上的策略操作，五是一个适中的数字。想想，如果对七中不同类型客户制定差异策略，还是多了些。而使用二八原则，个人认为是划分等级的理想原则，等级一般都是金字塔型的，头小屁股大，大多数都是属于基础的等级，少数派占据顶尖的等级。

那为什么是5种，而不是4种呢？为什么要给最后的4％再分成两个等级？当初步看了Somebody的提问，我想，可能是没什么必要，确实，从策略上，对于这4％的客户不会又太大的差异。

也许就是个人喜好吧，一开始选择了5这个数字，因为他是奇数，有中间值保持对称，符合中庸之道。

如果客户能够接受5级的评定，就没有问题，如果不接受，就劝服接受。大家应该不会在是5级合理还是4级合理的问题上纠缠。

作者: Mr.Somebody 20070613

根据qing兄的在这帖子的回答和在"确定分析目标"的帖子，现在我对问题有了更深一点的认识，同时也有了更多的疑问。

用"用户是否欠费"来作为目标变量建立模型，预测的自然是用户会否欠费。
用"用户是否欠费且不还"来作为目标变量建立模型，预测的就是用户会否欠费且不还。
模型的结果和目标的定义是应该一致的。同时，在定义目标是还应该加上时限。因为预测的目标应该是用户在未来一段时间（N天、N个月还是N年）内会否欠
费，而不是简单的yes 和no。

当然，用户会否欠费与用户信用是肯定相关的，但是是如何相关呢？正比线性还是其他非线性关系？这个问题用目前这个模型是不能够回答的。所以，以用户是否
欠费来作为目标变量建立的模型是不足以用来衡量用户信用的。

要解决透支额度的问题，最好还是借鉴一下金融行业信用评估的方法。

作者: Qing 20070613

我也非常怀疑用这个欠费可能性模型是否能够说明信用的好坏。其实这个模型的目标是是否欠费（当然会有时间限制），如果我们将预测的结果当作是信用差的，应该是可以理解的。然后，对于哪些欠费可能性不大的客户就是信用好的吗？似乎不能这么说。

今天下午，将这个结论跟客户说，正是提出了这个问题。

因为我们现在的五个等级是金字塔型的，A、B占去80％，D、E只有很少的一部分，从欠费可能性来说，非常符合现实。但客户的一个疑问是----信用好的应当也是很少的，所以这个等级不应该是金字塔型，而是符合正态分布，差不多是纺锤形。这个质疑让我觉得似乎有什么地方不对劲，但从业务角度这是让人觉得有道理的。从分析角度来说，信用好和信用差应该是两个分析目标，如果要得到理想的纺锤形，那么也应当分成两个步骤，一个是识别信用差的群体，一是识别信用好的群体。但又蹦出一个问题----什么叫做信用好。如果说信用差，可以说曾经发生欠费并且不还的，就是信用差的。但信用好的不能说未曾欠过费就是好。

有人说，男人不出轨，是因为诱惑不够。同样，那些未曾欠费的，并不是完全因为诚实，恐怕也有诱惑不够大的原因吧。因为本身现在的欠费率不算太高，运营商已经做了很大的控制，很多信用问题已经被隐藏在控制之后。

信用度跟这个模型的目标并非严格匹配，就是这样的。当探讨到这里的时候，客户已经认同现有模型。因为他们也意识到没有一个标准来定义"信用好"。

按照我开始的预期，果然客户并没有将注意力放在为什么分成五级（而不是三级）。更受关注的，是每个级别的数量构成（最终还是接受了金字塔形的构成），另外确实还有每个级别的区别。A级跟B级如果都是信用好的，但他们的区别是什么，难道只是0.01和0.02分值的差别吗？这不容易让人理解。如果你能发现A级主要客户是中高端，而B级主要客户是中低端，那么这也是个不错的结论（当然，我们还尚未发现这个结论）。

作者: Mr.Somebody 20070615

关于评分结果可以用二八原则来解释，Qing兄的解释很合常理。但是我还有另外一种猜测，那就是因为建模时使用的数据本身就是服从二八原则的。能请
Qing兄验证一下么？

作者: Qing 20070615

你说本身数据服从二八原则是从那个方面来看？如果每个月的欠费客户和非欠费客户比例，不符合二八原则，欠费率大概只有2％，很少。从最后验证看，如果有实际有1万个欠费的，那么模型预测出来，D、E两级大概两万人，命中（确实欠费）大概8千人，命中率40％，查全率80％，结果还算可以了吧。

不过后来想想，恐怕还是因为2％这个基数太小，对分析并不是好事。

作者: 严国友 20070615

Qing,您好！

不知这个模型的等级划分，最终如何在实际中去应用。

早先的手机用户多是后付费用户，先消费，在付钱。曾出现过有人那别人或假身份证办手机号，一下就消费个十万、百万的，当然是不会给移动/联通缴手机费的。

因此出现了很多黑名单，即这个身份证不能入网；到现在多数都是预付费了，你得先缴钱，然后才能打电话，一旦余额不多就限制你使用。

此前有过信用度控制系统、黑名单管理系统等。在移动/联通都要求大伙先付钱了，信用度控制还有多大需求呢？

不过总还是有点后付费的用户，多数省份比例已经很小了，不过北京移动好像还不少：入网要北京本地身份证担保，或者预交500块。头几个月消费总额几乎都控制在200元以内，否则就限制使用；不过用了半载、一年后，就可以不太受控制，一般都可以消费个千儿八百的。

其实这样的控制还是蛮实用的，配上缴费提醒系统，基本就能应付欠费问题。不管用户实际信用度高不高，新来的就得受限，等成了老用户了，基本上一个月的消费额度就可以用来作为欠费额度了。

而用模型去预测打分，给用户分成5类，在最终应用上和以上的信用控制公式比，手机用户的可理解性相比可就要难了。

作者: Qing 20070618

面提到了，虽然这叫作信用度模型，但其实是预测客户欠费的可能性。本身，欠费问题在国内的电信行业已经不太显著，很多都变成预付费，欠费就停你机。除了几个大城市还存在很多后付费的客户，他们更关注欠费问题吧。

也许，运营商是期望构建一个能够预期客户"信用"好坏的模型，这种好坏得是相对的。比如，你给他1万块透支，他岿然不动，你给他10万透支，他心动了，于是用完就跑了。但也有人，给10万不动心，给100万才动心。如此，这被100万打动的就比那10万的信用好。可惜，我们的模型无法预测这个，只能通过客户历史行为来分析。可是大多数客户根本就没有机会展示其信用好坏的机会，你说咋整。

所以说，如今我们的模型只能拿哪些被预测出来信用不好的客户（D/E级，4％左右）来说事。

欠费问题应该不光是避免欠费导致的坏账，应当是提高客户服务和降低欠费欺诈的平衡。如果给你足够的透支额度，你会感到收到信任，满意度提高，而且因为没有余额的限制，你的消费也是不知不觉涨了上去。这就看这个度怎么把握了，这是个策略问题。如果能仿真一下，给足够多的客户予以宽松的透支额度，然后观察收入增长和欠费率，如果收入增长远大于欠费坏账，自然可以给予客户更大的消费空间。

作者: 兰德里尼 20070618

---我也做了个类似的模型，命中率50％，查全率60％，好像还不如你这个呢，你这个从效果来看可以了。不过实际情况是客户一般会要求命中率越高越好，对于查全率似乎不是很关心，可能是因为客户对于差样本审核的成本太高了吧，而且如果命中率很低，客户上报的时候也会很没面子的。

责编：姜玲