|
主数据定义之争刘庆 看到一篇关于主数据管理的文章,国外的。"主数据"这个概念已经在很多厂商的产品线中出现了,SAS、海波龙等,在ttnn中也多次提及。可对于主数据的理解还是非常模糊的,知道大概是那么个东西,是记录那种实体性的数据,诸如客户、产品等。一般可以划入数据质量的范畴,参见《 数据用途分类,主数据》 还有一位说主数据是那种表示"跟踪状态"的数据,什么叫跟踪状态?在此之前,此位专家将数据分成三种,跟踪事物状态的、跟踪事件行为的、记录关系的(包括依赖事物的关系和依赖时间的关系)。那么所谓"主数据"就是跟踪事物状态以及记录依赖事物关系的数据,而非跟踪事件行为和依赖事件之关系数据。哎哟,真累,像绕口令一样。这种数据分类方法中,跟金球先生提出的三种分类,有两种是重合的,累积快照型=跟踪事物状态类,事务型=跟踪事件行为类,还有一种周期快照型和这里的记录关系类对应不上。金先生的分类可以用来作为ETL增量抽取之依据,但对于此处的三类,尚不知其用途为何?难道是仅供参考? 扯远了,此位专家提到的跟踪事物状态,也就是累积快照型数据,和主数据关系很大。说到主数据是此种类型的数据,但是否可以说此种类型数据就是主数据呢?未必。 这是它的目的,要建立数据标准。但主数据是什么?是标准本身?还是标准与那些不标准之间的对应关系,这点还没有想明白。而且,如果说标准,整个数据仓库的目的岂非也是要达到这个目的,所谓"Single Verion Of the Truth"。似乎大家都在争当标准,可究竟谁是"唯一"呢? 20060406 继续昨天关于主数据的话题,又想到一个概念,"system of record",这个词语我也一直不明白是什么意思,从字面上理解,曾经将它理解为记录原子数据的表,将它用中文表述成为"记录系统"。见《度量数据仓库系统的指标》。 System of record是一个比较古老的概念,应该是在主数据之前。它是记录某种信息的地方,是唯一的,是标准的。 数据一般会分布、复制。在作版本控制的时候,总得确定一个最新版本,这个版本可以被取出,但如果你要修改,就要锁定这个最新版本,告诉别人,这个最新版本在你这里,修改完了在解除锁定,否则,造成版本混乱。因此,可以将最新版本看作是一种system of record。 譬如对于目前移动正在建设的数据集市,同样的数据会出现在省公司数据仓库、地市公司集市,例如客户的姓名、地址资料,帐单、详单等。总得要以某个为标准,这个标准就是system of record,按理来说,这个标准是在省公司的。但很多实际工作中,并没有这样的标准。例如客户资料,在营业系统中录入的客户资料很多都是不准确的,大客户部门提取大客户资料进行一对一关怀,在沟通过程中完善了客户资料,可这些资料有时就保留在大客户部门自己手中。如此,也就没有了标准。 我想system of record无非就是强调标准化。作数据管理也要想作版本管理一样,要有个作为标准的地方,可以将数据复制发布下去。如果副本修改,需要更新标准。
责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|