当前位置：首页 > BI-商业智能 > TTNN-BI观点 > 正文

数据挖掘框架与BI/数据仓库/CRM如何结合到实处？

作者：Hunter

2007/4/30 15:26:02

大中小

本文关键字： ttnn 2006年10期

第一次发文，词不达意之处请各位多原谅！

因为要写硕士论文，之前没有做过数据挖掘，只是看了一些书，参加开发过小型的MIS/客户资料管理系统。

导师建议论文的方向是搭建一个数据挖掘的框架，可以的话集中在增量客户数据的利用上（增量数据挖掘，用之前的挖掘结果/经验提取来加速新数据的挖掘，新老数据的挖掘结果的合并等）

我想达到的目的是论文过关，然后写论文做研究的过程能够积累些对找工作有帮助的东西。所以很想尽早做一些实际/实验性的CRM数据挖掘工作,但是导师建议集中在框架上。

之前在北京工作过几年（编程等），发现ttnn里都是有实践经验的BI高手，估计毕业之后找工作的方向也还是会集中在BI/DW/DM方面，所以特地前来请教！

一般说到框架，是写一套类似文档的规范（把标准流程具体化）,还是用代码搭建一套原型或者具体系统呢？

如果想把挖掘和商业智能/数据仓库结合起来，应该从哪里入手呢？目前的情况是导师不给具体的项目（数据集），从虚的来。。不知道用网上的那些标准数据集可以吗？或者谁能指点一下什么地方能找到客户数据

Nirvana2000 20061008

估计不好做

第一，如果你写规范的话，没有丰富的市场知识和多种挖掘产品使用经验的话，着手很困难，每一套挖掘产品本身也有自己的规范，而且也提供一些和常用的数据库、ETL工具、挖掘工具的交互接口，但各家产品的规范之间差异仍然挺大，这个规范如果不是行业巨头牵头来做的话，只能说是闭门造车。

第二，如果搭建一套原型，这里讲的原型具体是什么呢，一般软件开发里讲的原型也就是个产品的雏形，实际上你还是要开发个挖掘产品，或者是现有市场上多种流行挖掘产品的粘合剂？能把所有挖掘产品的功能和之间交互整合？

第三，虽说工欲善其事，必利其器，但个人认为，挖掘产品本身倒不是实施好挖掘项目的关键，大部分流行挖掘产品，其实功能都大同小异，一些处理方式差不多；能否利用一种挖掘工具达到好的挖掘效果，关键还要看运用过程中经验的总结，因为数据挖掘本质是一个过程，不是一劳永逸的东东。只有用得多，对常用数据处理方法，常用模型的调整策略，挖掘结果的评估方法等一系列的知识有较好地把握，找出一些共性出来，这样的话，也许能总结一些规律或者是规范出来。但要形成一个怎样的东西，我现在也不知道。

Hunter 20061008

Nirvana2000所言甚是,多谢指点.

那如果要搭框架Framework,致力于增量的客户数据问题，是否还是要有一个数据集来做研究？比如用SQL Server Analysis Service,然后找到一套增加中的客户数据，做出挖掘结果，然后把过程中的方法和经验，注意事项总结一下，"上升到理论高度"。

比如落实到移动客户，在大家的实践中，每月增加的客户数据，是怎么样利用以前的成果，来把新的数据融合到成果中呢？

一个设想是：最好能只用增量数据的一部分，来改进以前的挖掘结果；同时，能用以前的经验和挖掘结果，来更好地指导对新数据的挖掘。

还是仅仅把增量数据作为对模型的验证修改用（得到新数据--》用其对模型进行改进），以及纳入数据仓库存放起来？

呵呵，如果问的不得要领，还请各位多点拨，俺一定努力学习

Zhu Sizheng 20061008
hunter:

对于增量数据挖掘，据你所说最好能只用增量数据的一部分，来改进以前的挖掘结果；同时，能用以前的经验和挖掘结果，来更好地指导对新数据的挖掘。这样的思路应该是没有错的，但对于增量更新问题而言，不仅仅只牵涉到算法挖掘结果的更新，更重要的是面对增量的原始数据，而这会牵涉到ODS架构的问题。而原始数据增量更新策略这个问题本身就已经是一个比较难弄的过程，有关ODS前面也进行过一些讨论，不妨向西宁兄请教。

数据挖掘的过程是数据-〉信息-〉知识的过程，数据到信息的抽取有很多的算法可以应用，但如果上升到知识层面，更多的依赖于人的取舍，比如关联规则有用与否的取舍。

目前，对于BI的应用大多还是在DW的建设，olap分析和报表系统的建设，真正涉及到数据挖掘的企业应用还不是很多，关于这一点，可以向qing兄，innovate兄以及ttnn中各位潜水的高人请教。

对于数据挖掘工具，目前有很多现成的工具可以应用，但是我越来越意识到即便是现成工具的使用，对算法的理解，对DW架构的理解，对数据质量的控制，对业务的熟练都有很高的要求。比如关联规则分析中各个阈值的设定，虽说可以随心所欲的设定任何值，但是如何取一个"恰当"的值却成为困扰很多弟兄的事。我研究的是关联规则分析，对于其他算法没有什么研究，所以只能讲这个。

对于sql 2005 中的ssas，目前共有八个算法可以应用，具体的介绍你可以到微软的msdn网站上去看一下。对于数据集，可以看一下sql 2005 自带的数据仓库，看能否应用的上。

Hunter 20061009

看了一些文章，觉得要结合一类具体的算法来展开框架，否则实在太纸上谈兵，俺没有能力驾驭。

目前我想的是结合聚类clustering,因为关联规则的增量数据本来就归为算法问题（有很多增量挖掘算法，优化数据库扫描等），算法创新不是我的强项。。。聚类这方面好像可以做的文章多一些。

请教一下，大家日常用到的聚类算法（估计来自不同的工具集），更常用的是哪类呢（基于层次Hierarchical？划分Partition？密度？中心？SOM?模糊？）

好像K-means等基于中心的聚类不太适应增量数据，有人用基于密度的聚类来做文本数据的增量挖掘。那么在处理客户资料数据的时候，大家如何处理增量数据的呢？

选取哪些变量用于分析，我只知道决策树可以用熵/信息增益等方法来决定重要变量。在聚类的时候，一般是怎么决定选取哪些变量的呢？

Unlock 20061009

看到hunter兄的留言，第一个感觉就是遇到同命人了。

我的论文方向也是聚类算法，偶老板的意思也是让先做个框架，包括从数据抽取、数据仓库、数据挖掘、前端展示。老板的意思是这样能成为一个完整的体系，作为研究生论文来说显得丰满，如果只做一部分的话显得太单薄了。聚类算法上老板给的意见是先做算法实现，然后结合一定的业务做一些小的改进就可以了，这个主要可以作为论文的闪光点。

站在自己的角度来说，觉得老板的话还是有道理的。做一做框架的东西，可以让自己对整个数据处理的过程有一定的了解；算法方面，要做纯算法的改进还是挺困难的，最后能找个背景，作一些应用方面的研究，这个的话可能业务方面的知识比较重要。

说来惭愧，确定方向已经有一段时间了，可一直到现在都没什么进展。

希望以后能够多联系，多讨论。

责编：Hunter