关于大数据沙箱应该知晓的十件事

来源: ZDNet   
2013/10/24 17:18:43
现在,企业开始越来越关注大数据在企业中的应用,如何通过数据分析和数据挖掘让数据产生价值和为企业制定决策提供依据,然而这些如何在一个安全的沙箱测试环境中对数据处理和查询能力进行实验,这对于企业IT部门和最终用户至关重要。

本文关键字: 大数据 IT 数据库

导语:现在,企业开始越来越关注大数据在企业中的应用,如何通过数据分析和数据挖掘让数据产生价值和为企业制定决策提供依据,然而这些如何在一个安全的沙箱测试环境中对数据处理和查询能力进行实验,这对于企业IT部门和最终用户至关重要。

随着企业越来越关注大数据,能够在一个安全的沙箱测试环境中对数据处理和查询能力进行实验,这对于企业IT部门与最终用户来说都是非常重要的。然而,建立一个安全、合适的大数据沙箱测试环境,和创建一个针对交易型数据及报告的传统测试环境是不同的。下文将列出由Transworld Data总裁Mary Shacklett总结的10个实施沙箱项目的注意事项。

1、数据集市还是主数据库?

数据库管理员需要从早期就做出决定,决定是让测试沙箱使用直接来自生产用的主数据库中的数据,亦或者最佳解决方案是将这些数据复制或者片段剥离到独立的数据集市中,仅供测试使用。完整数据库的好处是,可以测试用于生产中实际使用的数据,这样测试结果更加精确。缺点是,可能会和生产本身产生数据冲突。有了数据集市的战略,你不用冒着与生产数据发生冲突的风险,但是可能需要定期更新数据,以保持与生产数据的同步,更加接近于生产环境。

2、工作日程

日程安排是大数据沙箱活动最重要的一件事,这确保了所有沙箱操作都是在最佳状态下运行的,可通过同时安排一组较小的任务和一个更大的任务同时运行来实现。对于IT来说,这个过程的关键是坐下来和各种使用沙箱的用户进行交流,这样每个人都对日程安排有一个前期的了解,并清楚其背后的原理以及他们的工作期待运行时间。

3、设置限制

如果几个月的时间过去了却没有使用一个特定的数据集市或者沙箱,那么企业用户及IT部门就应该制订一个可接受的策略以净化这些资源,这样就能重新放到一个可以针对其他活动重新配置的资源池中。这个测试环境应该和生产环境一样被有效管理起来,这样资源只有正处于使用状态的时候才会被调用。

4、使用纯净数据

大数据管道工作的一个前提,应该是准备好数据并净化数据,这样在应用数据集市解决方案时,才能确保数据具备用于测试的质量。在一个不完整、不准确、甚至是遭到破坏的测试环境中使用数据是一个坏习惯因为数据在放到测试区域之前并不安全。要学会摒弃这些坏习惯。

共2页: 上一页1 [2]
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918