|
想提高洞察力吗?上午,阿龙发给我一个关于数据挖掘的短文,据说是MBA老师忽悠的,用生动的例子来说明分析报告、统计分析和数据挖掘的区别。正好,前段时间关于数据挖掘要作什-么也跟我们的挖掘建模人员有些争论,此处便说两句。 先给出那位老师的说明: > "分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)"。 > 举个例子说。 > 你看到孙悟空跟二郎神打仗,然后写了个分析报告,说孙悟空在柔韧性上优势明显,二郎神在力气上出类拔萃,所以刚开始不相上下;结果两个人跑到竹林里,在竹子上面-打,孙悟空的优势发挥出来,所以孙悟空赢了。这叫分析报告。 > 孙悟空要跟二郎神打架了,有个赌徒找你预测。你做了个统计,发现两人斗争4567次,其中孙悟空赢3456次。另外,孙悟空斗牛魔王,胜率是89%,二郎神斗牛-魔王胜率是71%。你得出趋势是孙悟空赢。因为你假设了这次胜利跟历史的关系,根据经验作了一个假设。这叫统计分析。 > 你什么都没做,让计算机自己做关联分析,自动找到了出身、教育、经验、单身四个因素。得出结论是孙悟空赢。计算机通过分析发现贫苦出身的孩子一般比皇亲国戚功夫-练得刻苦;打架经验丰富的人因为擅长利用环境而机会更多;在都遇得到明师的情况下,贫苦出身的孩子功夫可能会高些;单身的人功夫总比同样环境非单身的高。孙悟空-遇到的名师不亚于二郎神,而打架经验绝对丰富,并且单身,所以这次打头,孙悟空赢。这叫数据挖掘。 > 数据挖掘跟OLAP的区别在于它没有假设,让计算机找出这种背后的关系,而这种关系可能是你所想得到的,也可能是所想不到的。比如数据挖掘找出的结果发现在2亿-条打斗记录中,姓孙的跟姓杨的打,总是姓孙的胜利,孙悟空姓孙,所以,悟空胜利。 > 用在现实中,我们举个例子来说,做OLAP分析,我们找找哪些人总是不及时向电信运营商缴钱,一般会分析收入低的人往往会缴费不及时。通过分析,发现不及时缴钱-的穷人占71%。而数据挖掘则不同,它自己去分析原因。原因可能是,家住在五环以外的人,不及时缴钱。这些结论对推进工作有很深的价值,比如在五环外作市场调研-,发现需要建立更多的合作渠道以方便缴费。这是数据挖掘的价值。 很生动的说明吧。我是做分析应用的,有时候不太顾得上是否用数据挖掘的方法去解决问题,但我们的项目是一个挖掘项目,就指望着挖掘卖钱呢。可是我总觉得那些挖掘-方法并不能很好满足客户的需求。因此,有段时间,我曾经坚持一个想法,挖掘考虑的变量不是越多越好,而是每个变量都能够反映一个业务上的因素,并且是能够"说"-的出来的,不是简单从数据上拼凑出来的一个变量。之所以有这个想法,大概我是将数据挖掘当成一种验证假设的手段了。因此,挖掘人员有些不高兴。挖掘建模就是要挖-掘一些原来没有发现的东西,当然要考虑各方面的因素。 这倒是跟前面MBA老师一个说法,也许数据挖掘独特的特性真的就是这样。可是,去发现原来未曾预料的规则,也不是不管三七二十一地来吧。比如在上面的例子里面,-挖掘模型自动找出了出身、教育、经验、单身这四个因素,对输赢起了很大作用。明显,已经将这四个因素作为变量输入了,这已经是个假设,认为它们对战斗力有很大影-响。但因素是无穷无尽的,总会有些可能是重要的因素,但没有考虑进去。比如说,有个心理因素,如果孙悟空是叛逆的,就能打的过二郎神,一旦皈依我佛,就不照。也-许这个因素真的就盖过了出身、经验等等因素。 我想,如果将数据挖掘看成一个多了不得的东西,就会如此来明显地将它与OLAP、平常的统计区别开来。但其实大家都知道,在商业应用里面,有多少未曾预料的东西-呢?一年能够出来两三条规则就不错了。大部分的决策都是要通过常规统计来辅助,而即便数据挖掘,其实最重要的一个步骤,数据探索,说到底不还是数据统计吗?其实-仅仅将这一步做好,就能够发现很多原来没有想到的规则的。 数据挖掘并不能给你洞察力,洞察力是对那些有洞察能力的人才有的。那么,数据挖掘能够帮助人提高洞察能力吗?不能,它只能破坏人的洞察力,只是将人变成一个傻瓜-。 这样说,好像是否定了数据挖掘,但其实只是为了证明自己的观点而已。其实大家都知道,它是双刃剑。对于制造挖掘工具的,研究算法的,当然站在他们的角度说这个东-西帮助你提高洞察力,可是对于使用这些工具的人来说,关键是要解决业务问题,不要太迷信这些工具。 责编:刘庆 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|