|
数据仓库:有多少数据?由大量数据引发的问题有:是否可以预测是一个问题;加载数据是一个问题;整理数据是一个问题;索引数据是一个问题;有效地访问数据是一个问题;发现和管理休眠数据是一个问题;数据仓库所需的预算是一个问题;管理不断增长的数据量所需的技术是一个问题。 本文关键字: 数据仓库 跟任何一个自尊心很强的 数据仓库开发者谈论时,你都会听到一个关于一个数据库中有大量数据的故事。数据仓库的巨大是因为数据仓库包含了由历史数据、详细数据和各种各样类型的数据组成的数据。这里有一个公式: 由大量数据引发的问题有:是否可以预测是一个问题;加载数据是一个问题;整理数据是一个问题;索引数据是一个问题;有效地访问数据是一个问题;发现和管理休眠数据是一个问题;数据仓库所需的预算是一个问题;管理不断增长的数据量所需的技术是一个问题。简而言之, 在数据仓库中持有数据对它本身就是一个挑战。 现在出现了DW 2.0(数据仓库2.0版)。并且在DW 2.0中很天真地建议我们开始尝试在数据仓库中抓取非结构化、文本的数据。让我们做一次快速的计算。估计在企业中文本类的数据约为典型的结构化数据的5到10倍。几乎每一家公司的数据仓库是由结构化的信息构成。那么,让我们做一个分析。目前在我们的企业在结构化数据的管理上存在一个挑战。一旦我们开始添加非结构化的数据到我们的数据仓库,这会使我们今天所面对的挑战升至十倍。那就是我们在这里讨论的吗? 随着出现在我们面前的大量非结构化数据,数据的存储容量需要变的更大。但是要大多少呢?确实,世界上有大量的非结构化数据,难道所有的数据都要放在硬盘的存储空间上吗?当然是有许多要存储在硬盘上,但的确不是所有的数据都要想方设法存储在硬盘上。 所以并不是所有非结构化的数据都要设法存入一个数据仓库,当然更不是一次性存入所有。但很多非结构化的数据最终会设法进入到一个数据仓库。如果做一个有根据的猜测,可能以今天的结构化数据仓库乘以三到四倍会是个不错的猜测。对任何人而言那都是一个大量的数据。
责编:亢晋芳 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|