|
谈谈数据的用途和分类作者:Jerome 20070110 看"BI 2006十大亮点"的帖子,又链接到了Qing的一个老帖子,写的就是数据的用途的分类。那个帖子写的比较久了,大家也该忘记了,我把它翻出来给大家加深一下印象,望Qing兄-不要见怪。 目前对数据的分类和定义非常多,那些老外吃饱了撑的没事干,专门造名词。他们用英文定义的词就不太统一,翻译过来更是比较乱。 我试着在Qing兄的基础上整理一下,希望大家能提出宝贵意见给指正。 先说http://www.dmreview.com/article_sub.cfm?articleId=1033570文章中提到的五个数据分类。 1.Meta data - 元数据 2.Systems/applicaion data - 系统/应用数据 3.Transactional data - 事务数据 4.Reference data - 参照数据 5.Master data - 主数据 再补充几个: 这又是一个容易混淆的名词。 个人感觉,和master data相对,system of record主要是针对transactional data而言,即业务操作产生的记录数据。这样的transactional data一般的情况下,最早产生的地方也就是最准确、最新和最完整的地方。所以kimball和inmon对system of record的定义的差别并不算大。总归我们可以明白system of record是做源系统数据分析后,找到的最准确,并准备从这里进行数据抽取的地方。 7.Application data - 应用数据 9.Data linage - 数据世系 还有诸如维度数据、事实数据、快照数据等大家常见的分类名词这里就不罗嗦了,欢迎大家补充一些易混淆的数据分类名词,或者指正前面的不妥之处。 作者:Qing 20070111 对于这些数据的分类,始终是让人觉得头大,虽然在dmreview中的文章中对每种每类作出解释,但也不敢确定所有人都是认同这种解释的。 比如现在对于主数据,有此处理解为描述对应关系的,或是描述实体的。这种分类应该是从数据的描述的对象来区分的吧,抛开那些名词,应该有如下几种: 1、描述实体的。此处的实体跟关系数据库理论里面的实体有些区别,是类似"客户"、"产品"这样的东西,是在问题域中被抽象出来的某种概念。我想成为"东西"可-能更容易明白些,这个"东西",有诞生、有过程、有结束。这里特意加了一个限定词——"问题域",意思是说,描述的对象是业务需求领域范围的"东西"。如果,我-将"数据"看作东西的话,不算,那算元数据。 2、描述在实体身上发生的事件的。谁,在什么地方,什么时间发生了一件什么事情,并且这个事件也是属于业务问题域的。称这为一个"事件",或者称之为"交易"。-比如通话详单、ATM取款交易都算这种,取款记录描述了哪个客户,在哪台ATM,何时取了多少钱。 3、描述数据的数据。以上描述实体的,描述事件的数据,如果将它们也当作"东西",同样需要记录。当然,要值得区分的是,"数据"这个东西并非在业务问题域里面-,而是在系统管理、架构的层面。比如,一条取款记录包括哪些信息,什么时间产生,什么时间被同步到另一个库里面去。同样,"数据"这个东西同样也有实体和事件之-分。数据的诞生、消亡是在实体层面的描述,而数据的迁移,便是事件。 4、描述数据对应关系的数据。这是当存在不一致数据的情况下,需要一个标准。那就描述这个标准跟其他非标准数据的对应关系,强调的是对应关系。 这四种倒是能够跟dmreview文中的五种分类对应四种。至于那种叫做系统/应用数据的,文中注明为系统配置信息,我想这些数据描述的对象无非还是"实体",-比如有些系统设计里面会将所有可配置信息放在一个"包"里面,这不也是可以看成是业务领域的一个实体吗。而上面提到的第四种数据,描述对应关系的数据,跟前三个-也不是同一层面,他只是在有数据不一致的情况下才有。难道不可以认为"数据之间的对应关系"是一种数据吗?那样,其实他是一种描述数据的数据,也即元数据了? 胡思乱想一番,有些头晕。 责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|