|
Hadoop发行版厂商星环发布TPC-DS评测结果大数据基础技术领域中Hadoop的地位已获得广泛认同,但目前国内外市场上的Hadoop版本也是林林总总,到底该参照什么标准来考评Hadoop,尤其是给企业应用的Hadoop发行版平台呢? 测试软件设定 TPC-DS配置 考虑到磁盘的容量和HDFS的存储复制模式,我们选择的是500GB的数据总量。SQL测试案例的选择上,在Cloudera Impala中使用的是由Cloudera改动过的TPC-DS测试子集,在Transwarp Inceptor我们选用的是TPC-DS为MySQL生成的测试集合,保留了原有的各种复杂SQL,因此能够客观反映出Inceptor在SQL支持上的情况。 Cloudera Impala测试集合可参考https://github.com/cloudera/impala-tpcds-kit。 Hadoop版本 Transwarp Data Hub (TDH) v3.4使用的是Hadoop2.2 版本,而ClouderaCDH 5.1.3使用的是Hadoop 2.3。HDFS 2.3增加了一些新的功能如DataNode Cache,因此能够更有效地减少磁盘读写。TDH下个版本会升级到Hadoop 2.3,届时我们会再次测试以权衡出HDFS的版本升级带来的性能提升情况。 TranswarpTDH和ClouderaCDH都是用YARN作为资源调度组件,版本号分别为2.2 和2.3,但是考虑到YARN这两个版本间没有大的性能相关功能,可以认为资源调度方面没有差异。 其他组件没有太多的差异性,因此可以不考虑他们对最终的测试结果产生的影响。 数据存储格式 Transwarp Inceptor可以支持基于内存和SSD的数据表作为数据输入,也支持ORC和Text文件格式。考虑到Cloudera Impala只支持磁盘表,为了公正测试,我们使用Inceptor的磁盘表ORC格式和Impala的Parquet 格式做数据对比。另外,我们没有Cloudera Impala的详细资料,因此没有任何额外的参数设置和调优工作,只是使用默认的参数完成Impala的测试。 测试方法 为了保证数据的合理性,我们所有的性能测试数据都是每个测试案例完成三次运行后取的平均值。同时为了避免系统内部缓存对结果的影响,我们的测试不是连续将同一个测试SQL执行3次,而是连续执行完整个测试集合后再执行下一轮的测试集合。 责编:李玉琴 ![]() 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|