第四方物流的分布式数据挖掘系统研究

来源:万方数据  作者:蒋国瑞 杨晓燕 李立伟
2010/3/11 10:01:23

    3 第四方物流分布式数据挖拥系统设计与实现

    第四方物流最重要的作用是以IT技术为依托,最大限度地整合物流资源,以在整个供应链管理上对资源进行分配。而在整合外界资源进行优化决策时,关键问题在于路径、运输载体和第三方物流供应商的选择上。第三方物流提供商在运营过程中积攒了大量的物流解决数据,其中包含了丰富的路径选择和运输载体选择的知识,成为第四方物流进行优化决策中最真实的决策依据。这些数据存在于不同的第三方物流提供商信息系统中,而且数据是异构的。结合第四方物流系统的这些特点,参考Kargupta在1996年提出的数据挖掘代理的分布式数据挖掘代理系统(PADMA),提出了第四方物流决策支持的分布式数据挖掘系统框架(4PLDMA),具体结构如图I所示。

    图1 第四方物流决策支持的分布式数据挖掘系统

    3.1 应用程序

    由客户评价模块、物流方案设计模块、路径优化选择模块、第三方物流供应商选择模块等组成,实现用户和计算机之间的交互,具有扩展性和健壮性等特点,预留了接口以用于新的功能模块的追加,在应用程序实现上,4PLDMA采用Java技术。

    3.2 挖掘协调器

    该构件是系统的核心部件之一,它是整个系统的协调器,负责数据挖掘要求分析和结果集成。具体过程如下:响应应用程序的数据挖掘请求,并对挖掘请求进行分析,确定挖掘的条件和目标;针对分析的结果首先查询案例库,查询是否有符合的数据挖掘结果,有符合条件的则将结果直接返回应用程序。如果不存在符合条件的结果,开始动态驱动数据疙掘分布式组件,获得分布式组件的挖掘结果,在集成知识库的指导下应用推理逻辑对中间结果进行集成,并在结果的基础上进行综合性挖掘,最后将挖掘结果返回应用程序。在技术实现上,该部分应用Agent技术,充当管理Agent的角色。

    3.3 数据挖掘分布式组件

    该组件部署在第三方物流信息系统处,负责接收挖掘协调器戴本地信息系统应用程序传来的挖掘请求,进行第三方物流信息系统中的数据挖掘分析,通过调用4PLDAM中数据挖掘中的数据挖掘操作方法对本地数据进行数据挖掘,并将结果返回给挖掘协调器。该组件由任务协调器、挖掘操作模块、数据预处理模块组成。

    任务协调器:接受来自挖掘协调器或本地信息系统应用程序的数据挖掘请求,进行数据挖掘任务分析,决定调用哪些操作方法,应用于哪些数据源,并激活数据预处理模块和挖掘操作模块进行协同工作,完成数据挖掘任务,并将结果返回给调用者。

    数据预处理模块:数据预处理模块是该组件中最重要的部分,整个4PLDAM系统的数据预处理工作是在该模块中进行的,主要功能是定义数据源、格式化数据源以及过滤数据源,包括以下子功能:a.数据映射。将源表中的数据映射成ID形式,并生成对照表(ID和原始值的对照)。此功能的目的是把不同形式的数据映射成统一的、可供挖掘模块操作的形式。b.类型映射。对源表中所列数据类型进行强制类型转换。之所以需要这个功能,是因为在数据库中不同的数据类型很多,数据挖掘算法只支持其中最基本的几种。c.列映射。从源表中提取所需要的列,以减少数据量,提高系统的效率。d.挖掘操作模块。由该模块来调用数据挖掘库中的挖掘操作方法,并按照方法中的操作顺序和挖掘算法对本地数据进行挖掘,并将结果返回给任务协调器。该组件也采用多Agent技术来实现,充当任务Agent的角色,在该组件内部各模块应用Agent技术的集中式模式来实现。

    3.4 数据挖掘库

    数据挖掘库是系统的核心部分,该库存储的是各种挖掘操作方法,以供挖掘协调器和数据挖掘分布式组件的调用。每个方法中包括数据准备和数据挖掘算法在内的所有挖掘操作,且这些操作信息是有顺序的(用户进行这些操作的顺序),这是因为一个数据挖掘操作在整个知识发现过程中往往不是孤立的,一个操作的结果可能是下一个操作的输入。另外方法中还保存挖掘操作的参数设置。

    数据挖掘库的特点:a.可扩充性。该库为用户提供了增加挖掘操作方法、设置挖掘操作方法参数的API,提高了系统的可扩充性。b.集成性。挖掘操作方法可以用多种语言实现,在数据挖掘库中用XML的方式保存。

    3.5 集成知识库

    将局部数据挖掘结果集成全局数据挖掘结果是分布式数据挖掘中一个重要的阶段,目前对多分类器的集成研究较为成熟,多分类器的组合方法包括传统的择多判决法(如投票表决法、计分法等)、线性加权组合方法、模糊推理法以及通过分析样本特征而动态选择分类器的方法等,把这些集成方法写成XML的形式存储在知识库,指导挖掘协调器的结果集成。

    3.6 案例库

    在物流方案设计中,由于客户业务具有一定的稳定性和相似性,所以方案中涉及的优化策略会相同或相似,另外进行一次数据挖掘将花费很多的系统资源,因此应该把挖掘的结果连同挖掘的要求存储在案例库中,实现挖掘结果的充分利用和共享。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918