甲骨文骑上Cloudera的大数据大象

来源:比特网  作者:huangliang编译
2012/1/13 17:53:43
当甲骨文联合创始人兼首席执行官Larry Ellison在去年10月爬上他自己的大数据“大象”的背上——他的公司在去年10月宣布Big Data Appliance,甲骨文公司给人的印象,这将是积累他们自己的开放源码的Apache Hadoop的数据实施。这原来是不正确的。



本文关键字: 甲骨文 Cloudera 大数据

当甲骨文联合创始人兼首席执行官Larry Ellison在去年10月爬上他自己的大数据“大象”的背上——他的公司在去年10月宣布Big Data Appliance,甲骨文公司给人的印象,这将是积累他们自己的开放源码的Apache Hadoop的数据实施。这原来是不正确的。

事实上,甲骨文公司最近透露他们开始出货Hadoop堆栈(以“在喂饱的大象之后”的名字命名),他们实际上已经签署了一项与Cloudera的OEM协议 - 第一和迄今最大的商业的Hadoop disties - 大数据设备的mapper和reducer。具体来说,Big Data Appliance将包括来自Cloudera的CDH3累积版本的Hadoop,附加他们的Cloudera Manager 3.7,早在2011年12月推出的一个控件。

由于Oracle使用CDH3作为其核心的Hadoop,客户不会只限于使用甲骨文自己的NoSQL数据库核心价值存储,这是基于其收购的BerkeleyDB。这以前,去年秋天在甲骨文OpenWorld宣传中谈到Big Data Appliance时,它是唯一的数据存储。数据仓库技术的副总裁Cetin Ozbutun,告诉我们大数据设备的客户将能够将数据存储在Hadoop分布式文件系统(HDFS)作为Apache Hadoop堆栈的一部分,如果他们不想来运行Oracle的NoSQL,在Oracle的企业级Linux,他们的RHEL重新执行版本上。而且,因为CDH3还包括了HBase - 在列导向的对HDFS的附加,是以谷歌的BigTable数据存储为蓝本 - 甲骨文的客户会也将能够使用HBase,如果他们的应用程序可以比在原始HDFS或甲骨文的NoSQL数据库运行得更好。大数据设备使用了Oracle社区版NoSQL数据存储和运行在Oracle Enterprise Linux之上的HotSpot Java虚拟机 。

甲骨文可以抓取的Apache Hadoop的代码,并推出自己的发行版,这很像他们已经获得了红帽企业Linux并成为其分支,来针对自己的硬件和软件堆栈调优,同时保持与RHEL兼容。Ozbutun说,甲骨文进行了评估这种替代以及其它来自Hortonworks和MapR的Hadoop发行版。Hortonworks从雅虎团队分拆,曾经在搜索引擎巨头的内部支持Hadoop,MapR是Hadoop的商业化,其软件OEM给EMC的Greenplum的数据设备部门。

“我们也考虑了很多不同的选择,但我们认为最好是与Cloudera的合作”Ozbutun解释说。“Cloudera显然是在这一领域的领导者,我们在其他领域的专业知识是相辅相成的。”

当然,甲骨文曾经是红帽的合作伙伴,然后出售红帽支持的一个克隆(版本),然后决定做自己的发布和控制所有的钞票和代码。有可能的是,从长远来看,甲骨文将购买Cloudera,购买其他的发行版,或推出自己的。 Hadoop太重要了,恰好对于Oracle没有自己的这一块来说,就这么简单。

不只是简单的混搭

关于Big Data Appliance(大数据设备)重要的是,这是一个精心设计的系统,不只是一个混搭甲骨文和Cloudera的软件。Ozbutun说,甲骨文公司已经花了几个月微调底层的硬件配置,来运行大数据的算法、他们的各种数据存储和插件,让Oracle数据库和Hadoop的数据存储共享信息。

Big Data Appliance是18个Sun Fire x86服务器节点的机架。每个节点有两个运行在3.06GHz的六核心Xeon X5675处理器。服务器最高支持144GB的内存,但这个特定的配置有48GB主内存(或者说每核心4GB)。该服务器有一个磁盘控制器,带有512MB电池后备的Cache存储器和十二块3TB的7.2K RPM SAS磁盘(3.5寸,每CPU核心对应一个)。这些服务器有两个40Gb/sec InfiniBand端口和4个千兆以太网端口。机架有两个InfiniBand交换机,它们有32个QDR InfiniBand端口和8个万??兆以太网端口,以及另一个平常普通的36端口QDR InfiniBand交换机。(甲骨文是芯片和交换机制造商Mellanox Technologies公司的少数股份持有者,并在其自己的交换机使用Mellonox的芯片。)在机架上还有另外一个以太网交换机,为Hadoop节点提供一个单独的管理网络。

Ozbutun说,关于Exadata数据库集群、Exalogic中间件集群和现在的大数据设备,主要的是不要再思考在CPU上的处理能力,并开始关注系统I/O和网络带宽的正确组合。许多客户的CPU超额配置而在网络和I/O方面配备不足。这意味着他们花了很多钱在硬件上,将不利于Hadoop的良好运行。甲骨文公司已经花了几个月来配置和调优这个系统,并确保机架内没有不需要的东西,这是因为 - 就像其他高性能计算客户那样 - Hadoop的购买者也是吝啬的。

这种大数据设备包括一个CDH3的终身OEM许可证和甲骨文核心软件许可证,每机架的成本45万美元。这是大大低于昂贵的完全配置Exadata机架 - 其中包括数据库服务器、Exadata存储阵列,以及Oracle 11g R2数据库和Real Application clusters(RAC,真正应用集群)扩展,这将在一个96核心的Exadata X2-2上花费你447万美元(标价)。硬件成本在这里是110万美元,只是作为一个比较。

衔接起来

除了大数据设备,甲骨文也推出了一套连接器连接Oracle数据库到Hadoop的数据存储。这些暗示在甲骨文去年十月的幻灯片后面,但没有任何更多的详细讨论。

首先是Oracle Loader(加载器)for Hadoop,它移动数据从Oracle 11g R2数据库到Hadoop的数据存储。有很多方法来处理这个事情,但Ozbutun说这个连接器的设计是独一无二的,于是大部分的数据分区、转换,和其它工作由Hadoop集群来做,而不是用机器(或者一组机器)运行Oracle数据库。

第二个连接器是Oracle Data Integrator(数据集成器)for Hadoop,现有数据集成工具的一种转变,可自动生成的MapReduce代码处理数据,并把数据集呈现给Oracle数据库。

第三个连接器被称为Direct Connection(直接连接)for HDFS,这实质上是将HDFS文件系统的一部分map和reduce数据作为Oracle数据库表来查看。最后,第四个连接器称为R Connector for Hadoop。有了这个,甲骨文确实已经采取开源的R统计分析软件包,并添加优化的数学库链接到Big Data Appliance堆栈中的各种数据存储。此连接器不是基于来自Revolution Analytics的Hadoop友好的R工具。
 

责编:杨雪姣
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918