档案大数据来袭

来源:eNet硅谷动力  
2014/4/30 16:52:33
大数据时代已经来临,我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。

本文关键字: 大数据 存储

三、档案大数据的存储

档案大数据给传统数据仓库架构带来了一系列的冲击和挑战,仅从存储层面来审视,仓储的构建者不得不面对来自两方面的焦虑:一是数据规模急速增长,现有的共享磁盘架构能否适应海量数据的存储;二是数据结构复杂多样,现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。

面对大数据的挑战,在技术上航星科技将如何解决大数据的问题呢?从现有数据库存储架构来和实践研究看,一个大而全的存储架构似乎不能完美的解决大数据的存储。大部分企业更应该偏向于让不同种类的数据存储在最适合他们的存储系统里,再将不同类型的数据进行融合,最后在融合的数据基础上做商业分析。

首先,必须有足够的空间存储数据。对于大数据,当企业在快速增长数据的背景下要保持数据的一种平衡状态并实现易扩展,应采用分而治之的思想,即构建分布式存储系统,方便增加节点实现稳步处理。

其次,兼有多种结构的存储引擎。大数据的结构复杂多样使数据仓库面临的源数据太过繁杂,此时应改变目前以结构化为主体的单一存储方案,对非结构化数据采用分布式文件系统进行存储,对结构松散无模式的半结构化数据采用面向文档的分布式key/value存储引擎是最适合的解决方案。

最后,航星科技建立连接多种存储引擎的“连接器”。通过这个“连接”来建立分布式存储与分布式文件系统之间的关系。我们存储多元化的数据主要是为了集成分析,而多种结构的孤立存储显然不是集成分析的最佳选择。通过构建连接器,使得非结构化数据在处理成结构化信息后,能快速融通和分布式数据库中的关系型数据,达到对大数据敏捷分析。

四、档案大数据的应用

传统的档案信息管理一直停留于档案目录管理、分类、归档、存储及简单的统计查询,档案大数据的关键信息需通过一定的技术方法进行提取,并针对提取出的有效信息根据一定的规律进行挖掘。只有满足不同档案用户的信息需求,数据挖掘技术才会发挥巨大作用。在海量的档案信息挖掘中主要采用文本数据挖掘技术,这相当于文字分析,一般指文本处理过程中产生高质量的信息。

责编:李玉琴
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918