我有一个小小愿望,有这样一头奶牛,它是一头神奇的奶牛,吃进去的是一堆烂数,挤出来的是有意思的分析结论。看过那些咨询报告吗?像那样就可以了。
想达成这个愿望,必须得说清楚那挤出来的东西到底是什么玩意儿。这是个难题,因为,不知道分析的目的,要解决什么问题。因此,这个结论只能是泛泛的。但有总比没有好,对于能够针对具体问题得到结论,先搁下不谈。
既然这输出的结果不是完全的解决问题的分析报告,是纯粹从数据得来的,应该可以看作是一种数据探索报告。甚至,数据探索多少还带有目的性的。此处,更有点"数据剖析"的影子了,让我想起,Teradata的挖掘工具中,有个模块就叫做Profiler。当然也有不同,剖析主要是发现数据质量问题,而此处目的主要分析变量的分布。所以,正如标题,我给这头牛起了个名字——"数据探索器",名字土点,其实可以叫做"神牛"(以符合我们公司的"神马"精神),或者叫做"超级奶牛"。先不谈名字问题,看看她应当如何工作。
让这头奶牛工作的方法是:
1、准备饲料,也就是数据。二维表的形式即可,比如一张数据库表,数据文件,或者excel表格;
2、放点佐料,也就是设定参数,诸如是否抽样,指定表字段(变量)的属性,连续型、离散型,考虑是否可以设定一个目标变量字段;
3、等待...
4、按摩乳房,得到输出,得到一份ppt,或word文件或者excel图表。
工作方式是简单的,重要的当然是参数怎么设定,最后得到的结论包含哪些内容,我想应该能够反映如下信息:
1、 最主要的变量是那些,为什么有些变量是可以不考虑的;能够对变量做值分析,哪些变量太多的空值、太多的零值、几乎都是一样的值、是二元值(是否)。
2、 连续变量离散化,并且能够看单个变量的分布情况。连续的看诸如分箱之类的结果。离散变量可以看看饼图构成。
3、 变量之间的关联,两两之间的关联结果;(这样可能导致很多的图表,也许应该只选取最主要变量进行关联)
4、 如果设定了目标变量,能够自动地得到预测该目标的模型,并展现模型结论。
嗯,要将这最后的得出的结果描述清楚,还不是一件容易的事情,至少现在看来,上面的4条不是非常清楚,慢慢来吧。
前段时间跟几个朋友提到这个想法,有位朋友从实现角度给出建议——spss的clemetine可以干这个事。我想大多挖掘工具都能够支持数据剖析、值分析、频次分析等功能吧。现在就是要将这些功能组合在一起,用常规的数据探索思路作为胶水,将它们粘在一起。
任何人工的操作(包括思维)理论上都可以被机器代替,为什么现在做数据挖掘挺贵的?因为对人的要求不低,他们的思维还没有被代替,如果有机器代替他们去做数据探索,他们就得寻找其他体现自己价值的地方。当然,这个价值应该是更高的价值。唉,这可有些悲哀了,大家都被科技赶着跑,保不齐那天就被淘汰出局。人能干的事情,一点一点都被机器代替了,最后人干啥去呢?按照电影上路子,人是要被机器灭掉的。因为机器开始有了感情,可是我想,如果机器也有了感情,它会不会嫌弃那些枯燥的工作自己干着没意思呢?于是,又想法子去制造一些机器人的机器人呢?最后,他们又被机器人的机器人灭了。接着,反反复复,出现了机器人的机器人的机器人的.......无穷匮也!
哈哈,这跟元数据有点像了吧。先是用数据来记录工作里面的事物,便于管理、自动化。人、桌子、订单等等的实体。后来发现这些数据多了,又要管理,又用数据来记录数据,表、视图、动态SQL,这就成了元数据。等元数据多了,又要管理元数据了,那么是不是该弄出"元元数据"了?从逻辑上是有的,不过这个话题早在去年就讨论过,曾经有教授研究过。元数据啊,元到第四层,在表达方式上就够了,还没想明白呢。
这个"元"字,我想还是"抽象"的意思,从万物中抽象出共性,就是元。因此,形而上学,研究事物的本质,在外文里面,可不就是metaphysical。在中文里面,不还有"道"这个东西嘛," 形而上者谓之道,形而下者谓之器"。"道"这个东西说不出来,能说出来,就不是"道"。
嘿,看我扯到哪儿去了。
责编:刘庆
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友