最近看到几则公司收购的新闻,和数据质量厂商有关系。当然是国外的,国内几乎没有专门做数据质量这块业务的。在2005年六月,Gartner曾经做过一个数据质量管理软件厂商的市场分析,列出主要几家,如Dataflux、Firstlogic、IBM和Trillium,这算不错的几家,还有Group1、Innovative和Similarity等,算次一等的。其中IB……
|
西宁提出想搞一个"数据管理平台",当然核心的功能是数据质量的管理。所谓平台,想象成一个桌子,上面可以放置不同的东西;或者是舞台,我搭台子你唱戏。他起到一种支撑作用,是一种基础设施。而一个平台性的东西,似乎也是要夸垂直行业的,无论是电信还是银行、税务还是能源,都可以用。而既然核心功能放在数据质量,也就是能够对业务各个系统,诸如生产系统、客服……
个人谈一点看法,如果有用大家可以试试,没用大家但故事看看拉倒。首先是鸭鸭的问题具有典型代表性,在政府的数据分析项目中,原始数据来自手工单据的情况很常见,另外,市场调查公司的问卷资料绝大多数也是纸张存储媒介。尽管我们看到电信和银行的数据大部分都是电子数据,但我们日常生活中,更多的数据还是存储在纸上的。我们姑且录入过程当作把数据从纸张存储媒介转移到磁盘存储媒介上……
项目一期一期地建,可衡量标准仍然是模糊的。这是上次回北京,和王璟交流他们项目时的一点感触。他们金融行业的经营分析系统也是从一期走到二期,一期主要的目标,是做数据整合和单一客户视图。后者是一种应用,还是比较容易明确地度量,而前者是一种后者的支撑,相当于基础设施了。它可以用于单一客户视图,也可以用作其他诸如报表、贷款风险分析等应用的支撑。如何度量?不能度量,也就……
2005年是BI领域惨淡经营的一年,最近几个朋友聊天的时候,言语中透出着不经意的无奈,“唉!你说,咋就没项目呢?”咋没项目?要说,其实还是有一些项目的,只不过不象前两年那样移动联通上经营分析的时候那般火爆而已,发感慨的朋友都是在电信圈里混饭吃的,而一般说到“电信圈”默认的含义是给几个运营商做项目的,难怪没项目呢……
发现数据质量这个词从不同人的口中里出来,其实有着不同的含义。例如有的一提到数据质量,就说客户数据如何无意义,常常是地址、证件号码这类信息是否有效。而在这里谈论的数据质量问题,常指从数据从数据源,长途跋涉到最终报表、cube、分析应用的过程中,数据是否一致,转换的规则是否正确,因此需要一套质量体系来监控这个过程。这是客户需求决定的,因为在保证客户资料的有效性方……
前几天受到阿龙的批评——比喻说多了不好。比喻确实容易被滥用,也很容易误导人,让人忽视事物的本质。但比喻又确实是一种能够让人很快接受一个新概念的手段。对于元数据这个话题,上个月得出一个简单的"元数据内容模型"。提到"Data about Data"这个定义中两个Data的区别,还想再打个比方,希望……