|
软硬件巨头齐发力大数据利器Hadoop2011风光无限从Yahoo的Web搜索研究,到Facebook的数据分析,再到百度的搜索日志分析、淘宝的数据魔方服务,Hadoop的身影都已经到处闪现。 Apache Hadoop是一个基于Java的开源软件架构,运行分布的、数据密集型应用。它能够让应用安全扩展以处理数千个节点以及PB级数据。Hadoop集成了大量重要的应用程序,包括分布式文本搜索、web访问日志统计等等。Hadoop主要由三部分组成:HDFS(Hadoop Distributed File System),MapReduce与Hbase。 HDFS是Hadoop分布式文件系统,它的主要设计目标是对成百上千的服务器集群导致的硬件错误的检测和快速、自动的恢复能力,以及大数据文件的存储、数据的高吞吐量等。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,将自己的程序运行在分布式系统上。HBase是一个分布式的、面向列的开源数据库,由Apache基金会开发。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。它基于列的而不是基于行的模式。 现今,Hadoop已被认为是非结构化数据的专用技术。低成本、高扩展性和灵活性等优势已成为处理大规模点击流量分析和广告定位等网络巨头(如AOL和comScore)的首选。 2011年,微软、Oracle、IBM、Informatica、EMC、Dell等公司相继推出或宣布即将推出集成Hadoop的相关产品、服务,让Hadoop在2011年风光无限。 2011 Hadoop热点新闻回顾 2011年3月,Platform Computing签订Apache企业贡献许可协议(Apache Corporate Contributor License Agreement),该项协议使企业能够为Apache软件基金会提供支持,开发基于Apache的开源Hadoop分布式文件系统(HDFS)。Platform公司及其开发者将为发展中的HDFS开发提供支持,为最新发布的针对MapReduce应用程序的企业级分布式运行引擎--Platform MapReduce提供商业支持。 2011年5月,在收购了Engenio之后, NetApp推出与Hadoop应用结合的产品E5400存储系统。 2011年5月,Mapr Technologies公司推出分布式文件系统和MapReduce引擎MapR Distribution for Apache Hadoop。 2011年5月,EMC推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备Greenplum HD数据计算设备(Data Computing Appliance)。该设备结合了Hadoop和EMC Greenplum数据库,从而在一个单一、无缝的解决方案中实现了结构化和非结构化数据的协同处理。此外,EMC还推出了面向Hadoop的EMC Greenplum HD社区版和EMC Greenplum HD企业版软件。 2011年5月25日,MapR与EMC披露了一个新的软件授权协议,并在EMC的新Apache Hadoop分布式系统中加入它的知识产权。MapR将会成为EMC Greenplum HD企业版的一个重要组成部分,它实现了对Apache Hadoop软件堆栈的100%的界面兼容。 2011年5月,HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出,HCatalog主要用于解决数据存储、元数据的问题,主要解决HDFS的瓶颈,它提供了一个地方来存储数据的状态信息,这使得数据清理和归档工具可以很容易的进行处理。 2011年5月,Hadoop海量数据分析平台Datameer获得Kleiner Perkins等风投925万美元投资,总投资已经达到1200万美元。 2011年6月,Calxeda公司发起了"开拓者行动",一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持,并为Hadoop提供低功耗服务器技术。 2011年6月,数据集成供应商Informatica发布了其旗舰产品,产品设计初衷是处理当今事务和社会媒体所产生的海量数据,同时支持Hadoop。 2011年6月,雅虎和硅谷风险投资公司Benchmark Capital声称它们将组建一个新的公司接管广泛应用的Hadoop数据分析软件的开发工作。这个新公司将雇用目前专门进行Hadoop软件开发的大约25至30名雅虎工程师。雅虎自从2005年以来一直帮助开发Hadoop软件。这家新公司的名称是Hortonworks,是根据瑟斯(Seuss)博士的电影"霍顿奇遇记"中的大象角色的名字命名的。 2011年8月,Cloudera公布了一项有益于合作伙伴生态系统的计划创建一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。 2011年8月,Dell开始出售预装Hadoop的服务器。戴尔云营销总监Joseph George指出,该产品包基于用户反馈设计,因为很多戴尔商务用户都已经在使用或考虑使用Hadoop,这将成为标准,而公司也已经为此进行硬件基础架构设计调整。 2011年9月5日,Dell和Cloudera联合推出了Hadoop解决方案Cloudera Enterprise。该Hadoop解决方案解决了处理大数据时所面临的所有挑战,包括软件,硬件以及服务。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机,这些组件已经成功应用于云和大数据部署中。 2011年10月2日,Oracle在2011全球大会上推出了Big Data Appliance。Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。 2011年10月12日,微软在SQL PASS 2011峰会上宣布将与从雅虎分拆出来的Hortonworks合作开发,在Apache Hadoop上实现搭建Windows Server以及Windows Azure平台。Hortonworks作为微软的战略合作伙伴将会借助自己在此领域的专长帮助最大化将Hadoop集成到微软的产品之中。 2011年10月25日,IBM在2011年度的IBM IOD大会上宣布,将在SmartCloud平台上新增一项基于Apache Hadoop的服务InfoSphere BigInsights分析软件。新增加的服务将有基本版、免费版和企业级支付版。其中的免费版可被用来学习"大数据分析"是如何实现的。 2011年11月,Informatica发布了业界第一款Hadoop环境下的数据编译转换解决方案--Informatica HParser。该方案可以运行在几乎所有的Apache Hadoop分布式环境中,与MapReduce架构平行,能高效率地把无结构的复杂数据--诸如网络记录、社交媒体数据、通话详细记录以及其他数据格式等转换为Hadoop中结构或半结构格式。当把数据转化为更具结构性的格式后,便可以得到更快速的使用和生效,从而驱动业务发展、提高运营效率。 2011年11月10日,EnterpriseDB发布了基于Hadoop的Postgres Plus(R) Connector。该连接器允许访问Postgres Plus(R) Advanced Server (PPAS)以及PostgreSQL数据库中的大量数据,并支持在Hadoop集群上大量处理和分析数据。基于Hadoop的Postgres Plus(R) Connector允许程序员使用它们熟悉的MapReduce框架来处理基于SQL的批量数据。 2011年11月15日,NetApp, Inc。发布了NetApp Open Solution for Hadoop 解决方案,这款支持立即部署的预配置解决方案具有更高的灵活性和性能以及更低的总体拥有成本,可帮助客户实现企业级 Hadoop 应用的价值最大化。NetApp 和 Cloudera 公司联合发布了 Cloudera's Distribution including Apache Hadoop (CDH) 和 Cloudera Enterprise。Cloudera Enterprise 是一项订购服务,由 Cloudera Support 和 Hadoop 管理软件组成,可通过 NetApp Open Solution for Hadoop 加速 Apache Hadoop 的企业部署和生产应用。 2011年11月,eBay在Hadoop世界(Hadoop World)大会的主题演讲中展示了一种全新的搜索引擎Cassini的架构,该引擎预计在2012年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用Apache Hadoop来支持每小时进行的索引更新,使用Apache HBase对随机存取信息提供支持。 2011年11月,Hadoop开源软件整体方案供应商Cloudera募集到4000万美元风险投资资金,这家从事大数据开发的软件供应商计划扩大业务规模,实现大幅增长。Cloudera的首席执行官麦克.奥尔森(Mike Olson)在一份声明中表示:"此次获得的投资证明了Cloudera自创立至今所取得的成功和创新成就以及Hadoop大数据企业服务所拥有的巨大市场机遇。" 2011年12月2日,Hadoop中国2011云计算大会在北京会议中心举行。本次会议由中国科学院计算机研究所主办,Apache 软件基金会主席Hadoop开源软件之父Doug Cutting、威斯康星大学计算机科学系教授Miron Livny、Google资深软件工程师Grzegorz Malewicz等云计算专家出席了本次会议。 2011年12月底,Apache开源项目Hadoop发布了1.0.0版。Hadoop 1.0.0主要是修正了bug,改进了性能和兼容性。它的上一个版本是0.20.205.0,新版的版本号原是 0.20.205.1,但开发者表示,Hadoop已经成熟几年前就做好了应用于生产的准备,但有些客户在采用前希望看到版本号是1.0,所以他们决定直接跳到了1.0。 2012 Hadoop展望 诚然,Hadoop还有一些不足。在技术层面,MapReduce没有索引,只有靠强大的运算能力来处理,MapReduce本身存在一些lower-level实现的问题, 特别是skew和数据交换等。另外,在用户交互界面上Hadoop也需要进行完善,使用户可以更加方便的使用。 "但这些都不是问题",Forrester的分析师James Kobielus表示,"在这些问题解决之前,Hadoop会有广泛的采用。因为相对于传统的企业级数据仓库体系结构,Hadoop是最好的。" 在2012年,可以确定,作为企业级数据仓库体系结构核心技术的Hadoop将会继续保持快速增长。 责编:James Sun 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 |
最新专题 |
|