数据挖掘笔记

  作者:姜玲
2007/4/11 17:04:37
本文关键字: ttnn 2006年07期

学习两天数据挖掘,结合以前的数据仓库知识做了些比较,还请大家多指教!

现在我们做的数据仓库项目基本上是搭建一个数据仓库的基础平台,在这个平台上的应用只限于query&reporting。虽然建设一个数据仓库的基础平台是非常非常重要的工作,它会关系到这个数据仓库系统的高可用性、可扩展性,但是从客户角度来说,基础平台属于后台的事情,客户关心的前台的内容,因为客户是从业务角度看问题的。

报表和查询是所有用户都关心的最基本的也是最常用的功能,功能先进一点的会用到OLAP功能,利用上卷下钻方式对不同程度的汇总数据进行查询、分析。根据这两天学习的数据挖掘知识来看,数据的汇总在数据挖掘里面叫数据的概化,OLAP功能所使用的方法是非自动的概化处理方式,因为具体汇总到哪个层次、具体哪个维、属性会参与汇总都是由客户预先定义好的。这种手工方式的主观性很大,而且对于客户自身的水平也要求较高。

数据挖掘包含的步骤很多,单就数据概化这个概念而言,就比OLAP的人工方式智能的很多。通过定义属性分析临界值、属性概化临界值、以及属性相关性临界值来由计算机自己来定义具体汇总到哪个层次、具体哪个维、属性会参与汇总。

数据仓库的各个步骤中与数据挖掘相关比较紧密的是数据的预处理。数据在进行数据仓库的过程中经过了数据清洗(格式一致性、内容一致性、空值处理等步骤)的处理,在数据仓库中还根据需求进行了不同程度(粒度)的汇总。那么在进行数据挖掘前是否还要进行数据的预处理呢?因为前两天招聘数据挖掘的人时曾经问过这个问题,对方回答说:因为在数据仓库阶段已经处理的很好了,就没有在数据挖掘前再进行处理。这样就让我产生了上述的疑问。从数据挖掘定义的数据预处理的步骤可以看到,它包括:

1)数据清理:填写空缺的值,平滑噪声数据,识别和排除孤立点数据,解决数据的不一致性。

2)数据集成:集成多个数据库、数据立方体或者文件。

3)数据变换:规范化和聚集(汇总)。

4)数据规约:得到数据集的压缩表示,它小的多,但可以得到相同或者相近的结果。直接面对海量数据来挖掘的话,效率会很慢。

5)数据离散化:数据规约的一部分。通过概念分层和数据的离散化来规约数据,对于数字型数据非常重要。

从上面定义来看,数据挖掘阶段的数据预处理和数据仓库中的数据清洗和数据汇总还是有很大差别的,差别的根源在于数据处理完成后相应的任务的差别,它们对于数据的质量要求也不同。数据仓库只要求真实的展示当前的数据,而数据挖掘是要展现数据中的潜在规律。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918