全球大数据将在未来十年内增长50倍
  大数据快速增长的部分原因归功于智能设备的普及,比如服装传感器和医疗设备,以及智能建筑,比如大楼和桥梁。此外,非结构化信息——比如文件、电子邮件和视频——将占到未来10年新生数据的90%。非结构化信息的增长部分应归功于高宽带数据的增长,比如视频。
【话题讨论】大数据,你懂吗 ?
  大数据,无非就是大,海量;人们已经习惯了用海量、爆炸性增长、呈几何级数增加等词汇来描绘数据量的快速增长。IDC预测,未来10年内全球的数据量将增加44倍。如何让“大数据”更有意义,在“大数据”里面寻找有价值的数据帮助企业作出更好的商业决策,这对企业来说是更大的挑战。对于大数据,你懂吗?
初识大数据
·大数据意味着包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。
·大交易数据:传统的关系数据以及非结构化和半结构化信息仍在继续增长。
·大交互数据:来源于 Facebook、Twitter、LinkedIn 及其它来源的社交媒体数据构成。
·大数据处理:例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。
权威机构眼中的大数据
Gartner:如何应对大数据挑战
  

据Gartner公司表示,目前很多试图应对大数据挑战的IT经理们把更多注意力都放在了信息的量上,而忽视了信息管理的其他方面,从而将很大挑战留在应对后者上。信息管理者在失去对数据访问和资格方面的控制时,可能会倾向于仅关注量的问题。

 

Gartner分析师警告,过于狭隘的观点会迫使2或3年内加大投资量以解决大数据其它方面的问题。虽然大数据是一个重要的问题,但Gartner分析师说真正的问题在于使大数据产生意义,帮助组织作出更好的业务决策。

IDC大数据副总裁:从问题中探索答案
  

Benjamin Woo在演讲中谈论到,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发数据仓库、数据挖掘、商业智能、云计算等应用的连锁反应。到2020年,全球数据使用量预计暴增44倍,达到35.2ZB(1ZB=10亿TB)。大数据正在彻底改变IT世界。

 

大数据有四个基本方面:Volume、Variety、Velocity、value。首先,数据是海量的;数据是多样性的,由大量的人提供很多的数据,这些数据的价值是非常高的,而且获得数据的速度是非常快速的。

ESG王丛:大数据带来了大机遇
  

大数据是个很新的概念,没有任何一家有一个清晰的定论,只是根据我们对市场的一些理解。大数据的产生有两个维度,第一个是非结构化数据,例如说在家做一个视频,上网传给朋友。这个数据量很大,这是一个维度。另一个维度就是数据库,现在的数据增长得非常快。

 

大数据在结构化数据或是数据库来讲,对BI的管理能力非常重要。大数据对非结构化数据来讲,尤其是对服务媒体行业来讲,它是能提高效率降低整个IT成本的一个比较好的举措。

大数据:大块头 大智慧
“大数据”来袭!冠军Watson如何应战?
  当我们在地铁上习惯性地拿起手机发几条微博的时候,当我们被一张又一张的美图迷乱了眼球的时候,当各式各样的网络拍客忙得热火朝天的时候......一个叫做"大数据(Big Data)"的名词不经意间在IT界走红,"大数据"的时代正在朝我们走来。
大数据增长为数据存储系统带来新挑战
  对数据存储厂商来说,还是有不少挑战存在,首当其冲的是,他们必须要强化关联式数据库的效能,增加数据管理和数据压缩的功能。 另一个挑战就是传统关联性数据库无法分析非结构化数据。因此,并购具有分析非结构化数据的厂商以及数据管理厂商,是目前数据存储大厂扩展实力的方向。
大数据时代竞争焦点:业务分析优化 Molloy
  随着世界迅速走向物联化、互连化和智能化,人们通过智能设备即可获得海量数据,而高级分析应用程序的成熟将有助于企业作出更好的业务决策。但这一切的前提是,在需要时可获得这些信息,且这些信息能够得到及时处理。
大数据引发的思考:性能容量孰轻孰重?
  当提到“大数据”概念的时候,有两个值得思考的问题:当性能不再是关键需求时,存储容量对公司究竟有多重要?这两个有分歧的要求能在同一市场、解决方案和设备中共存吗?“大数据”应用存在,“大性能”应用同样存在,有些环境可能追求其中一种目标。
厂商对大数据的作为
  在云计算热潮不断的对你狂轰乱炸,使你目不睱接时,那么今年“大数据”这个热词开始开始不断的进入我们的耳朵。大数据主要指的是视频、影音、图片等非结构化数据,这种文件类数据无法用数据库进行管理,需另觅解决方案。大数据并不是什么新概念,但如今被厂商大肆宣传,原因在于当下数据爆炸和云计算风行的这种趋势,它的流行也可以说是一个必然。
Informatica:将大数据的挑战转化为大机遇
  Informatica成功地推出了创新的Informatica 9.1 for Big Data,这是全球第一个专门为大数据而构建的统一数据集成平台,就是将海量数据带来的挑战转化为重大机遇。
NetApp眼中的大数据具备三要素:A、B、C

陈文俊指出,对于如何理解大数据有很多看法。对于NetApp 来说,所理解的大数据包括A、B、C三个要素:分析(Analytic), 带宽(Bandwidth)和内容(Content)。

Netezza:大数据的分析引擎
  IBM Netezza部门总裁Jim Baum近日谈了Netezza是如何为IBM解决大数据问题以及自2010被IBM收购以来的发展情况。
EMC:云与大数据的联姻
  EMC看到了云与大数据碰撞的IT趋势,对于这样一家存储提供商来说,与服务器虚拟化业务的融合可谓是天作之合,及时行乐吧。
大数据部署
六大备受关注的大数据部署

大数据是无法定义的术语之一--毫无疑问,一些供应商将硬盘从500GB升级到1TB,就会称为大数据。关于大数据的最重要的特点是,传统的数据处理工具或存储管理技术不能充分处理它。

因此,在竞争激烈的行业划分中,所有这些数据是如何转为可利用的知识产权,已成为行业领导者和落伍者之间的关键区分。 [全文]

一:Watson
Karp表示IBM已成为大数据行业的领导者,该公司正在进行基础研究以及产品研发。 “沃森因几个月内成功应对危险挑战而着名,大数据只是它获胜的众多因素之一。” [全文]
二:CA
Karp指出CA也在大数据这领域做了些事情。 “CA在大数据领域也做了些工作,不过处于保密状态,也许在一两个季度内不会对市场开放。” [全文]
三:Hadoop
如果你想分析内容的话,有两条路可以选择,无论这些内容是否是结构化或非结构化:专有的分析工具(IBM,CA和其他许多)和开源工具。后者更多意味着Hadoop--一个Apache开源社区项目。 [全文]
四:GreenPlum
EMC是很快意识到大数据发展潜力的另一个大厂商。在一年多以前,它收购了专门做分析的厂商GreenPlum。Karp指出,GreenPlum非常关注开发两层Hadoop代码,一个...... [全文]
五:Engenio
当涉及到大块的宽带时,NetApp的状况看起来非常不错,它把从LSI收购的Engenio作为它的E系列推出来...... [全文]
六:pNFS
通过并行NFS(pNFS)有利于满足一些大数据的需求,从而实现设备间高速数据迁移。代表了并行I/O的标准化,同时...... [全文]
Hadoop分布式文件系统
关于Hadoop

Hadoop主要由HDFS、MapReduce和Hbase组成。 它是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下开发分布式程序。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting如此解释Hadoop的得名:"这个名字是我孩子给一头吃饱了的棕黄色大象命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子是这方面的高手。Googol就是由小孩命名的。"
Hadoop及其子项目和后继模块所使用的名字往往也与其功能不相关,经常用一头大象或其他动物主题(例如:"Pig")。较小的各个组成部分给与更多描述性(因此也更俗)的名称。这是一个很好的原则,因为它意味着可以大致从其名字猜测其功能,例如,jobtracker 的任务就是跟踪MapReduce作业。

Hadoop介绍

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop主要子项目

* Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common

* HDFS: Hadoop 分佈式文件系統 (Distributed File System) - HDFS (Hadoop Distributed File System)

* MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API

* HBase: 类似Google BigTable的分布式NoSQL列数据库。(HBase 和 Avro 已经于2010年5月成为顶级 Apache 项目[1])

* Hive:数据仓库工具,由Facebook贡献。

* Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

* Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。