数据仓库(Data Warehouse)设计新趋势

来源:中国商业智能网  
2011/9/14 15:36:01
高德纳公司(Gartner)从2008年和2009年的趋势调查表明,由于数据量全面性地增加,50%以上的数据仓库 (Data Warehouse) 都在性能上受到限制。这些数据是来自管理、终端用户连接、查询计数和操作系统用于在线分析所依赖的数据。来自调查的其他信息和2009年的下半年表明,在所有数据仓库 (Data Warehouse) 中,多达85%的表现出性能受限。查询需要更长的时间来处理,多种工作处理的管理也因为不容易设定优先级而显得没有把握,而大量的数据则要求更多的处理和硬盘管理能力。 


本文关键字: 数据仓库 BI

高德纳公司(GARTNER)从2008年和2009年的趋势调查表明,由于数据量全面性地增加,50%以上的数据仓库 (DATA WAREHOUSE) 都在性能上受到限制。这些数据是来自管理、终端用户连接、查询计数和操作系统用于在线分析所依赖的数据。来自调查的其他信息和2009年的下半年表明,在所有数据仓库 (DATA WAREHOUSE) 中,多达85%的表现出性能受限。查询需要更长的时间来处理,多种工作处理的管理也因为不容易设定优先级而显得没有把握,而大量的数据则要求更多的处理和硬盘管理能力。

 
        硬件制造商和供应商都喜欢引用摩尔定律,它提出过集成电路上晶体管的性能每18个月就翻一番。然而,这里有一个数据管理的推论: 不管硬件变得多快,在数据的管理上数据量将永远超过存储的读/写的速率。不管内存和中央处理器(CPU)变得多么高效,在存储速率上的“瓶颈”将总会产生问题。这就促成基于一种多层 (N-TIER) 数据架构的解决方案。


        替代方案,如在内存里 (IN-MEMORY) 处理规定的数据集,但那只不过是在一种架构内的一个特定的数据层。在一个企业中处理的数据量呈指数级增长(每18个月乘以10倍,例如,10、100、10,000),而CPU的性能已被证明成几何的增长(每一次都在原来的基础上乘以2;例如,2、4、8、16)。在处理已知的数据量方面我们将总是变得更好 ― 主要得益于更高效的硬件 ― 但随着数据规模呈指数地增长,现有的硬件架构必须通过逻辑设计和管理控制得以扩充来处理数据量。


        这意味着数据架构原则继续主导了数据管理方面的考虑。工程考虑必须是数据架构需求解决方案的一部分。


        1997年,数据仓库(DATA WAREHOUSE)刚刚开始在企业运作中起到主要的作用。从数据集成和质量供应商到硬件和软件平台供应商为了数据仓库的运行,提供一个整体的软件系统市场和亚市场以试图拿到大型企业的预算。整个 商业智能BI)的市场的成功归功于它作为数据仓库的前端这样一个角色,尽管商业智能(BI)工具从那时起确实证明了他们作为一个独立的语义和分析工具的价值。但是,直到了2011年,高德纳公司(GARTNER)很少遇到一个企业能实现真正整个企业范围的数据仓库。企业数据仓库(EDW)仍停留在设计原则上,而没有,或很少被实际部署过。高德纳(GARTNER)估计, 70%至75%的被称为企业数据仓库实际上是用于单一的业务部门。
1. 数据库管理系统(DBMS)市场在2009年底达到约212亿美金。高德纳(GARTNER)估计,数据仓库(DATA WAREHOUSE)的数据库管理系统(DBMS) 市场大约占到35%,达74.2亿美元。
2. 高德纳(GARTNER)估计, 在被企业用户称为企业数据仓库(EDW)中, 有70%至75%实际上只用于具体的用户或数据主题域,而不是企业范围的。
3. 数据仓库的数据库管理系统(DBMS)已经演化成为一个更广泛的分析基础设施,为运行分析、企业绩效管理和其他新的应用系统和用途提供支持。成本正驱动着对不同数居架构的考虑,而性能优化正驱动多层数据框架和多种部署选项 ― 特别是对内存内(IN-MEMORY)数据集市的浓厚兴趣。
4. 在2010年,服务市场上, 有近70%的数据仓库是由不满3年数据仓库经验的新手组成 ― 这驱动了对专业服务人才的需求。
5. 近来程序设计技术的最新进展(大规模并行处理操作和对核心、内存和存储技术快速和同时的改进),为数据仓库平台创设一个新的设计原则提供了机会。
 
        传统的数据仓库 (DATA WAREHOUSE) 和数据集市 (DATA MART) 为商业智能(BI)创建一个分工合作的用法。集市和仓库作为商业智能(BI)的数据贮存器,有时操作数据存储器(OPERATION DATA STORE 或 ODS)也被用作商业智能(BI)的数据贮存器。这种框架,数据贮存器只有一种类型的用法,只有需要一种优化,只需要一个维度模型的灵活性。但用户群体开始意识到除了运行预制的报表和执行预制的向下钻取,还有更多的使用信息的方法。延时的问题开始显现,不是因为业务变了,而是因为用户较以前获得了较多格式更好的信息。一定程度的“实时”需求越来越明显,虽然这种需求一直存在。这就迫使在数据仓库 (DATA WAREHOUSE) 和整个商业智能(BI)的环境中工作量分配发生变化。商业智能(BI)工具开始从数据仓库 (DATA WAREHOUSE) 中脱离出来,而数据仓库 (DATA WAREHOUSE) 开始服务于更多的应用系统 ― 如商业活动监测(BAM)、公司绩效管理(CPM)及其他。如之前的客户机/服务器端(CLIENT/SERVER)应用系统革命一样,我们现在处于一个信息管理的革新期,对数据的单一用途正被多种滞后需求,多种优化需求, 和多种的终端用户的接入方式所替代。在数据仓库环境下,至少有六项工作载入:
1. 非专业用户(预制报告,过滤报表);
2. 数据挖掘(写入他们自己的查询,熟知模型,不需要客服);
3. 业务分析师(编写高级报表,新的向下钻取报表的设计);
4. 批处理ETL(提取、转换与加载)(传统的每小时或每天);
5. 连续ETL(提取、转换与加载)(实时);
6. 普及的商业智能(BI)(OLTP - 嵌入式 BI)。


        通常数据仓库(DATA WAREHOUSE 或 DW)的基础设施被分为3个主要区域,集中在数据采集、数据贮存器和终端用户访问的优化。每一个区域有多个组件:
1. 数据采集、数据整合和数据准备。共有四部分组成:
1. 工作文件 ― 来自源系统、日志文件,甚至第三方原始数据文件的变量文件;
2. 数据准备区— 数据准备区是ETL(提取、转换与加载)的一部分,并且经常用于总结表的生成进程;
3. 适当的ETL(提取、转换与加载)― 移动并整合数据;
4. 数据质量 ― 核实、验证、合并、丰富、排除和回收。
5. 数据贮存器是数据的存储设备,包括存储区域网络和数据库,可能包括许多数据库。
6. 用户访问通常是通过商业智能(BI)的工具来完成,但越来越多的情况下,数据仓库通常被用于其他应用系统类型诸如商业活动监测(BAM),绩效管理 (CPM),客户关系管理 ( CRM)、供应链管理


      大多数的企业并没有将分析客户关系管理(CRM)的相关策略与和其他商业智能 (BI)计划进行协调。面对预算的削减和对战略项目开支的审核,企业能够通过改进互补项目的协调和利用来维持低成本。项目之间的协调不理想,但是同样经常缺乏项目内部的协调努力。例如,一个企业有15个数据集市(DATA MART)用来支持15个TB的数据,其中只有3个TB的数据是唯一的, 也就是说,这个企业拥有的数据比它所需要的多出了五倍以上。此外,该企业有14位数据库管理员(DBA)管理这些数据的执行。这种结构的实施和支持的成本变得过于昂贵,并导致企业没有灵活的余地,引发更多的混乱而不是创新。

 
      行政管理注重在客户关系管理(CRM)上,但它的有效性只能依托于它有良好的基础数据和系统结构。IT技能代价很高,而用户的需求往往是动态的。用统一的结构来支持多种的分析应用系统能保持较低的人员编制和成本,还能保证持续的投资回报率(ROI)和总体价值(TVO)。


      假定源数据的品质是好的仍然是在商业智能 (BI)和数据仓库(DW)的实施中的一个致命错误。在数据仓库(DW)的工作中,大多数公司只关注识别他们所需要分析的数据,提取那种数据并将它加载到数据仓库中去。他们通常并不考虑数据的质量,任由有缺陷的数据散布到数据仓库中。一个数据仓库(DW)项目对数据质量的关注应涉及到数据质量防火墙的建立 — 它是一种流程或一套自动化控制试图识别输入数据中的质量问题并且阻止这些问题进入到数据仓库。在后台,必须有一个用于审计和验证数据仓库中数据的流程。这个流程包括使数据仓库的数据与源系统数据的调和。这一审计和数据调和的过程一般会有不同程度的精度和宽度,并且会发生在不同时间段内。例如,这个过程可能包括在日常工作的基础上执行一些高层的合计查询,以确保重要指标 (如销售总额或订单数量) 与一些关键源系统保持一至。在频次较少的基础上 (例如, 按每月或按季度),在交易层数据被严密地审核和与源系统进行对照时,会有一个更加细节的核对过程。


      数据仓库的数据架构和服务等级协议(SLAS)往往被看成两个独立的问题。高德纳的客户经常报告,初始的数据仓库部署在设计上仅仅是源数据的累积 (例如,一种非正式的数据准备区对用户的开放)。这不是一个数据仓库。当用户为提取数据和转换个别数据所遇到的查询性能慢的问题,数据集市就被用来建立数据汇总,以解决特定报表和分析服务等级协议的需求 ― 但它忽略了需要一个介于中间的明细数据层。当架构需要一个细节数据出现时,这些企业就部署了一个细节数据层,但并没有将原有的数据集市的数据源改成这个细节数据层,这就形成了一种单独的维护策略,从而增加了成本。


      传统的数据仓库的方法总是考虑用四层或 N-层数据架构作为最佳实践。有些系统把不同的层次嵌入在数据库管理系统(DBMS)中;有些被部署在商业智能(BI)系统和平台上;有些企业将数据集市部署在分开的平台或在分开的数据库中 ― 但绝大部分商业智能(BI)和数据仓库在最后的解决方案的构架中部署了四层架构。总是有一个临时存储改变的数据的需要,一种获取和核对详细数据的需要,一种汇总和总计用于支持共享的性能,和某种程度的高级汇总来支持最佳的预设查询性能。虽然有些部署看起来略去了某一层,但他们把它作为工作文件,散列文件或临时表嵌入在数据转换或加载过程中。

 
      在2011年,数据仓库(DATA WAREHOUSE)已经到了可能是自它建立以来其最显著的拐点。最大的,可能是IT的机构里最复杂数据管理系统正发生变化。新的数据仓库将在增加新的信息类型和变更侦测的灵活性上引进新的范围。首席信息官(CIO)们和数据仓库团队领导人需要知道在2011年的市场情况,并了解现在到2014年的变化预期。


      每一个全球2000强企业都拥有某种类型的数据仓库(DATA WAREHOUSE)、数据集市(DATA MART)、运行数据存储(ODS)或其他综合数据贮存器,设计用来支持商业智能(BI)和分析。作为一种支撑构架的组件,数据库管理系统(DBMS)为数据仓库的设计提供了最优化技术、存储设计、提取需求以及更多方面的引导。与此同时,在过去多年内关系型数据库管理系统(RDBMS) 在数据仓库上也造成一定的局限性。例如,诸如汇总、总计和索引等优化技术正是由于关系型数据库管理系统(RDBMS)管理行和列的方法和标准化数据中固有的性能限制的结果。

 
      “信息供过于求”概念自1997年以来开始流行,从那时起,我们不得不面对它。数据仓库成为首要的武器之一,帮我们将信息从无意义的数据中分离出来。最新程序设计技术的进展,如大规模并行处理操作(MPP)和在核心、内存和存储技术方面快速和同时并进的改进,为创设一个新的设计原则提供了机会。数据速度、种类和数据量体积都迅速扩大,这种超量数据挑战数据仓库。技术的进步将解决这些超量数据和实时数据仓库的难提, 这需要具有高级变更数居侦测能力。


      尽管处于经济困难的环境,数据仓库数据库管理系统(DBMS)市场在2010年恢复了增长,且较小的供应商为越来越多的人接受。2010年带来了一些重要的兼并,几个较小的供应商如ASTER DATA、INGRES和VERTICA ,在解决特定的市场需求方面迈出了一大步。

 
      2010年在数据仓库应用系统市场也有长足的进步,EMC/GREENPLUM和微软正式引入了应用系统,IBM、ORACLE和TERADATA增加了他们具有新功能的应用系统产品。虽然我们相信大部分的增长是由于更换老化或性能有限的数据仓库环境,我们也认为使用数据仓库在新的应用系统(诸如绩效管理和高级分析)的商业价值也在带动市场的增长。


      越来越多的企业理解到,在数据仓库的部署中,过去几年里他们所用的不协调的和消极的方法实际上是商业智能灵活性和效率上的阻碍。当企业设想利用更多信息的时候,各种因素都会同时带来机遇与挑战。这些因素包括利用信息推动企业的敏捷性的压力,为信息治理需要增加的监管,面向服务架构( SOA)的影响,数据存储和集成技术的演变,包括使用替代方法管理数据部署。

 

责编:亢晋芳
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918