数据仓库支持大数据的最佳实践——不是一件小事

来源:中国商业智能网  
2011/12/29 10:06:02
如果你要在“大数据”的工作中取得成功,你得有恰当的文化,合适的人,正确的数据和适用的工具。要是在数据仓库最佳实践方案中在适当的位置放入这些元素是这么简单该有多好。

Tech Target公司业务应用系统和架构媒体小组的研究主管Wayne Eckerson用简单的话说:如果你要在“大数据”的工作中取得成功,你得有恰当的文化,合适的人,正确的数据和适用的工具。要是在数据仓库最佳实践方案中在适当的位置放入这些元素是这么简单该有多好。

据Eckerson和其他分析师称,要达到这个程度需要仔细地规划,和对大数据管理技术和流程所带来的潜在机遇和挑战有一个清楚的理解。

Eckerson说,对初学者来说, “你需要机构中的最高领导愿意投资”在所需的技术上,并决心灌输一种以分析为目标的文化,以确保公司在数据分析上将利用信息“而且不只是回到依靠电子表格”。他补充说,当企业在考虑如何来应对大数据存储和管理的挑战时,他们需要更开放地对待移动到更多的为特定目的建造的数据仓库平台的可能性。这一类产品可以提供比支持通用数据库的产品 “一个数量级更好”的处理性能,Eckerson说。

然而,位于麻省的一家咨询公司的总裁Richard Winter警告说,像Hadoop和MapReduce这样的新兴技术并不能解决所有大数据的管理问题。Winter说,企业需要小心不要“把小孩与洗澡水一起倒掉”。“有些人认为他们现在能在Hadoop中做一切事情,他们可以停止对传统数据仓库技术的投资了 ― 但这对大多数企业来说将是一个可怕的错误。”

Winter推荐分别考虑每个应用系统,并评估哪个平台才是最适合一套特定的大数据的。他说,两个关键因素是数据将被保留多长时间和它将如何被使用。核心交易数据应归入数据仓库,在那里它的长期有效性和价值可以得到系统的管理。另一方面,点击流数据,显示客户情绪的社交网络帖子和其它类型的非结构化数据可能更适合于Hadoop集群,特别在信息保存不像交易数据通常保存那样长的时间的情况下。在企业中使用数据有多宽泛也会影响技术平台的选择,他说。

根据Forrester研究公司和Gartner公司各自不同但类似的术语定义,数据量并不是大数据唯一的特点,这两家公司也考虑到像多样性和变异性(或复杂性,在Gartner公司的模型中)这样的属性。但Forrester研究公司的分析James Kobielus说,在实践中,要处理大数据而准备数据仓库从根本上说仍然是关于可扩展性,而且他提供了三套数据仓库最佳实践建议,旨在帮助企业交付更强大和可扩展的系统。

大数据决策点:纵向扩展或横向扩展?

首先,考虑对你的数据仓库进行升级和可能的建立平行架构。可行的措施可能包括基于共享内存对称多处理器扩展数据仓库服务器节点;或利用服务器集群或无共 享大规模并行处理系统横向扩展,Kobielus说。在中央设备上安装分区的大规模并行处理器(MPP),分阶段和查询层是另一个选择。但Kobielus警告说,不适当注意到下面的技术基础设施就试图做出这样的改变很容易导致令人失望的结果。例如,他指出单核CPU可能达不到大规模并行处理器(MPP)的需求,而且存储I / O设备的带宽通常必须增加以支持不断提高的处理能力。

第二,Kobielus建议企业在硬件和软件两方面能够满足特定的性能问题或痛点的情况下考虑采用数据仓库应用系统。

第三,他建议企业要对数据仓库的数据管理和存储层进行优化以提高性能。这些可能包括为最高效率压缩数据,提高数据库架构,连接和分区,并使用非传统数据库技术,如纵列式和内存软件“来达到特定的目标,”他说。

位于多伦多的咨询公司的总裁和公司创始人Lyndsay Wise说,大数据项目的终极目标经常与传统数据仓库方案一样。例如,提供信息以帮助业务用户识别客户的购买模式或增加欺诈防护的力度。挑战也是相似的:“在你试图从数据中获得什么上可能有不同的细微差别,但结果仍然依赖于整合和数据质量问题或数据管理和控制上的挑战,”她说。

Wise补充说,虽然,来自这些挑战的困难程度可能因需要管理的数据量和它的复杂性而提高,特别是如果大数据项目涉及到从多个数据源中得出集合数据时。因此,企业在数据仓库的流程中结合大数据必须中肯地评估他们的能力,她建议道。“企业想说他们有很好的IT人员,但除非他们的数据库管理员(DBA)和开发人员真正地对数据仓库技术真正精通和具有特殊的大数据技术,几乎都要在外来的帮助上投资以真正开发一个强大的平台,” Wise说。

据Wise称,在大数据的问题上,能够从分析立场上设计你想实现的并预先确定你需要怎样的信息以及要把它们拉到一起将面临什么样的障碍,也是很关键的。“理解每件事情是如何交互的,这非常重要,”她说。

责编:James Sun
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918