精英云集，看国内外12家顶级公司大数据实践

来源：CSDN

2016/12/6 14:37:08

2016年12月8日-10日，BDTC 2016 中国大数据技术大会将在北京新云南皇冠假日酒店隆重举办。本届BDTC 2016为期三天，聚焦行业最佳实践，数据与应用的深度融合，关注热门技术在行业中的实践和应用，除Keynote外，主办方精心策划了16场专题技术和行业论坛，涵盖了大数据分析与生态系统、大数据云服务、HPC大数据、推荐系统、数据安全与隐私保护、人工智能、网络与通讯、政策法规与标准化、工业与制造业、数据库、金融、精准医疗和生物医药大数据、数据开放与政府治理高层沙龙、交通旅游与出行等主题。

分享到：新浪微博腾讯微博

本文关键字：大数据

目前，大会的全部议程已经出炉，超过130位技术专家将为现场千名以上的大数据行业精英、技术专家及意见领袖带来100多场技术演讲，分享最新技术与实践的洞察与经验，共商大数据时代发展之计。

在备受关注的“大数据分析与生态系统论坛”，无论是讲师阵容还是议题质量都堪称顶级，其学术价值极高，对于从事大数据领域的研究者来说具有极高的学习价值和参考价值。具体议题和介绍如下：

李昆：华为技术有限公司大数据设计部部长

讲师简介： 2004年加入华为，长期从事电信协议、管道智能化、数据可视化、用户行为分析等系统研究和开发工作。近年致力于数据管理和处理技术研究，参与Hadoop，Spark，Alluxio等开源社区，2016年作为CarbonData PMC成员参与Apache CarbonData项目孵化，寻求大数据与一站式分析平台的创新机会点。

议题名称：CarbonData：Hadoop生态面向交互式分析的索引文件格式

议题介绍： Apache CarbonData是一种新的高性能数据存储格式，针对当前大数据领域分析场景需求各异而导致的存储冗余问题，CarbonData提供了一种新的融合数据存储方案，以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景，并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能，实现百亿数据级秒级响应。

李扬：Apache Kylin project CTO

讲师简介：李扬 Kyligence联合创始人兼CTO，Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人，专注于大数据分析，并行计算，数据索引，关系数学，近似算法，压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人，负责Hadoop开源产品架构，“杰出技术贡献奖”的获奖者、摩根士丹利副总裁，负责全球监管报表基础架构。

议题名称：Apache Kylin的新Streaming OLAP实现?

议题介绍：回顾Apache Kylin架构，介绍麒麟在Streaming OLAP领域的历史。讲解Apache Kylin v1.5对流式处理尝试，总结设计的成功和失败。讲解Apache Kylin v1.6最新的Streaming OLAP实现，如何横向扩展实现大数据的流式Cube构建，如何在无序的流数据上分割Cube Segment，确保没有记录丢失。最后展望Apache Kylin的后续工作。

熊永平北京邮电大学副教授

讲师简介：北京邮电大学网络技术国家重点实验室副教授，分别从哈尔滨工业大学和中科院计算所获得硕士和博士学位，先后在诺基亚研究中心、中国电子信息产业研究院、无锡物联网产业研究院等单位，从事网络安全、移动物联网、数据科学和数据挖掘等领域的研究开发工作，主持和参与了国家自然科学基金、科技部重大专项、973等多项国家科研项目。在IEEE Transactions on Mobile Computing、ACM MobiCom等国内外著名期刊会议上发表论文30多篇，单篇论文他引次数超过210次。其研究成果先后转化到信息安全公司和物联网科技公司，近年来在流式数据处理、大规模复杂网络分析、可视化机器学习与数据建模领域进行了深入研发，其研究成果在保险领域的理赔反欺诈和营销分析、全科医生诊疗模型、源代码安全检测、电力运监大数据等领域进行多个不同行业的企业级应用，取得了良好的效果。

议题名称：基于Spark的交互式数据探索与建模系统

议题介绍：随着内存计算时代的到来，分布式内存计算框架SPARK正在快速的普及开来，Scala强大的表达和抽象能力，使之成为高效的数据处理语言。然而，由于缺乏统一的手段，机器学习建模经历的抽取、清洗、转换、特征筛选、建模到开发分布式算法落地实施等多个环节，通常需要来回利用各种工具和程序的组合来完成，写脚本程序清洗转换数据，利用R或SAS等工具进行小数据集建模，最后开发成spark程序进行分布式处理。本团队针对SPARK框架进行了深入研究，提出了一套将SPARK计算服务化的方法，设计了一个统一的可视化交互式数据探索处理与机器学习系统，支持机器学习建模全流程的可视化处理，并支持数据处理算子可插拔的可扩展能力，便于不同数据分析人员共享数据分析能力和经验。

艾毅：滴滴出行/技术专家

讲师简介：艾毅，滴滴出行大数据部BI系统组负责人。负责滴滴大数据实时计算系统的架构设计及研发。

议题名称：滴滴实时业务监控系统架构及实践

议题介绍：

实时计算的挑战及解决方案：（1）可扩展性（2）有状态的实时计算（3）数据被重复处理（4）高可用（5）实时数据流与外部系统或服务关联计算；

OLAP系统架构选型:KV store与column store 哪种存储更适合OLAP应用？

简要介绍Kafka的特性，阐述为何Kafka是实时计算系统中理想的数据存储方案；

详细介绍Druid的架构设计及原理，阐述Druid作为OLAP解决方案的优点；

详细介绍Samza的架构设计及原理，阐述如何通过Samza解决实时计算中的各种挑战；

介绍Lambda architecture，阐述如何将离线计算和实时计算统一起来，通过离线计算来修正实时计算。

张彭善：PayPal数据科学家

讲师简介： 2008年硕士毕业于上海交通大学，2012年初加入PayPal Risk Data Science团队。2013年开始研发基于Hadoop/YARN的分布式端到端的机器学习框架，以满足PayPal日益增长的风控大数据的需要。在PayPal的主要成绩包括实现、优化和实施基于Hadoop/YARN的分布式的神经网络、逻辑回归以及梯度提升树等算法，以及基于PayPal风控建模的需求构建端到端的机器学习管道。目前在PayPal Risk负责整个分布式机器学习的框架的研发优化以及端到端的机器学习工程化的系统平台建设。

议题名称：分布式机器学习算法在PayPal风险控制部门的实践

议题介绍： PayPal风险控制部门一直致力于利用基于大数据的机器学习模型检测欺诈交易以及欺诈用户，并且取得了显著的效果。本次演讲将主要分享PayPal风险控制部门内部利用机器学习算法的最佳实践，包括:

如何利用Hadoop/YARN实现和优化分布式的逻辑回归、神经网络以及梯度提升树等机器学习算法；

如何针对海量的数据做特征工程，构建端到端的大数据机器学习管道；

应用各种机器学习算法到具体产品环境的最佳实践；

如何将算法组合起来提升模型的性能和稳定性。

金昀：Facebook工程经理

讲师简介：金昀目前在美国Facebook基础架构核心系统部门担任工程经理。负责Facebook 跨数据中心大型分布式系统的开发。在此之前，金昀在中国PPTV公司和阿里云担任研发副总裁和研发总监，负责PP视频云平台和阿里云“飞天”分布式系统的开发。归国前，他在美国微软公司担任资深开发主管，负责多项核心服务器系统的开发。

议题名称：Facebook计算和存储分离的分布式计算平台

议题介绍：大数据方向的演讲题目，我可以讲一下Facebook里计算和存储分离的MapReduce框架。MapReduce的一个核心思想是计算必须靠近存储，这样做的原因是在分布式Map Reduce提出的时代网络是整个系统的瓶颈。但是计算和存储的耦合也造成了系统灵活性的下降，在Facebook海量数据应用场景不断变化的情况下这种耦合造成了整个数据仓库可扩展性的下降。在本次演讲中，来自Facebook基础架构部门的金昀将分享Facebook 在Map Redouce框架中分离计算和存储的实践。

黄鑫：百度基础架构部分布式计算架构师

讲师简介：黄鑫，百度基础架构部，从事分布式计算平台研发工作，负责百度下一代计算系统，将MR演变为为dag引擎、负责DCE(Distributed Computing Engine)项目，并推动内部多个sql平台升级使用DAG。现在，黄鑫参与分布式计算统一API - bigflow项目，统一多个流式和批处理计算平台API，并和多个项目组合作，推动业务作业升级。

议题名称：百度大数据离线计算平台发展历程

议题介绍： DCE是百度新一代离线批处理计算引擎，是在百度多年大数据发展积累的实际需求和规模影响下逐渐演变而成，有远超业界同行的集群规模、作业量、以及CPU利用率。DCE有独创的Shuffle模式和Native c++数据执行层实现，并且为满足业务实际多样需求，优化完善DAG引擎，降低计算平台框架资源消耗，提升框架计算有效性，进一步强化平台计算能力。并且，在众多流式和批处理引擎涌现的现在，百度内部已使用统一分布式计算API - Bigflow，来让业务用户可以一套代码高效的运行到任意多种计算引擎上，每天已有近百产品线、数百用户使用。

郑龙：中兴飞流信息科技有限公司CTO

讲师简介：郑龙，中兴飞流信息科技公司CTO。毕业于日本会津大学，取得博士学位，在日本期间作为日本学术振兴会特别研究员（JSPS Research Fellow）开展多核—众核并行与分布式异构计算研究；博士后师从数据流技术权威高光荣教授，在美国特拉华大学进行数据流大数据技术研究，曾任美国ET International（ETI）公司产品架构师，后任教于上海交通大学计算机系。

议题名称：Yita：基于数据流的大数据计算引擎

议题介绍：数据流起源于上世纪七十年代，由IEEE冯诺依曼奖章获得者、美国科学院院士、MIT教授Jack Dennis提出，并由以ACM、IEEE Fellow高光荣教授为代表的众多学者推进发展至今，是对冯诺依曼模型的一个突破，并在大规模并行领域有着独特优势的技术理论。随着大数据对并行计算效率要求的提升，数据流成为当前并行与分布式计算领域的重要热点，特别是在Google表明其深度学习框架TensorFlow基于数据流理论，学术界及工业界更是掀起了研究数据流的高潮。Yita是基于高光荣教授三十余年的理论工作，面向大数据场景开发的一套支持海量实时智能计算的大数据引擎。受益于数据流的细粒度—异步并行执行模型，Yita一方面大幅提高计算资源的利用效率，另一方面提供更为灵活的算法实现支持，在实现相同的计算场景上，相比当前的Spark与Storm，Yita提供高达十余倍的性能加速，且无需系统参数静态调优。中兴飞流现正联合多家高校，建立技术生态圈，并计划开源，努力推动Yita成为继Hadoop MR、Spark之后，中国自主研发的新一代开源大数据引擎。本演讲将对Yita进行深度探讨。

华思远：Apache Apex PMC

讲师简介：我叫华思远，江苏省无锡人。2006年从西安交通大学软件工程本科毕业，2009年赴美国南加州大学攻读软件工程和计算生物。2011年从南加州大学硕士毕业，之后加入总部位于旧金山的Saleforce.com公司，作为软件工程师负责Saleforce.com核心数据平台的开发和维护。2013年我加入硅谷大数据初创公司DataTorrent。DataTorrent的核心成员来自于雅虎原Hadoop工程总监和开发团队。我在DataTorrent主要负责Apache Apex项目，是Apex项目的PMC成员之一。Apex项目是新一代的实时大数据处理平台，已经为数家500强企业同时提供实时处理和批处理服务。

议题名称：下一代实时数据处理引擎——Apache Apex项目简介及应用

**议题介绍：**Apache Apex 是一个用Java开发的开源流数据处理平台。Apex 已经被部署在很多大公司的关键数据处理应用上。Apex 从一开始就关注海量处理能力，高吞吐，低延时，高可用性。Apex 的设计和架构也使 Apex 可以同时适用于实时数据处理和批处理。本次演讲会探讨Apex的一些关键功能以及其与其他类似系统的不同点，正是这些关键功能保证了Apex应用程序可以进行快速的数据处理，做出实时响应，达到低延时的商业要求并同时具有高吞吐能力(比如其可在较优的资源消耗下每秒处理百万数据的能力)。还会涉及到如何用Apex的一些高级的Partition特性来实现高扩展性，如何按需分配资源，如何实现容错，如何保证数据只处理一次，Apex的计算和任务调度模型，运行时状态管理，改变运行时程序的能力以及通过一些连接库和其他数据源的整合的能力。与会者也可以了解到这些关键特性对于降低开发成本和开发时间的意义。最后本次演讲还会展示Apex在具体生产环境中的一些应用，Apex现在正在开发的特性以及将来的路线图。

邹永强：云账户联合创始人兼CTO

讲师简介：邹永强，云账户联合创始人兼CTO。生于1981年，2010年于中科院计算所获分布式系统方向博士学位。曾负责腾讯深度学习平台Mariana设计、开发与应用，成功支持微信语音识别，图像识别，并在广点通图文广告点击率预估的创新工作中获得效果提升。有丰富的腾讯自研分布式文件系统开发和数千台服务器运营经验，具备领导设计和开发大数据并行处理解决方案经验。拥有25项专利，涉及基于深度学习的广告点击率预估算法、并行深度学习平台、分布式文件系统和分布式数据库。曾获PDCAT2008最佳论文奖和NPC2010最佳论文奖提名，并有研究工作发表于国际顶级学术会议VLDB2014。

议题名称：金融SaaS实战：云账户钱包SDK的技术挑战与解决方案

议题介绍：金融科技Fintech的强势崛起与此前互联网金融的火热，标志着金融行业的持续创新，催生更多非金融行业玩家的金融探索。云账户推出钱包SDK，包括红包和结算，提供群红包、专属红包、广告红包等提升用户活跃度，解决实时、高频的用户资金结算问题以提升用户体验和减轻财务负担，帮助开发者快速实践金融业务。钱包SDK面临多项技术挑战，包括：金融业务的数据可靠性与一致性挑战；互联网产品的并发性能挑战；安全与风控挑战；数据处理与运营挑战；SDK独特的集成、升级、机型兼容性挑战。本演讲将围绕这些技术挑战展开，并给出针对性的解决方案，包括云账户通过状态定义和事务机制解决红包与结算业务的数据可靠性与一致性，提升基础服务质量；通过请求分区、轻重分离、削峰填谷的架构设计，以及Golang实现解决并发性能问题；提供网络安全、金融安全、业务安全，并形成红包和结算等业务的独特风控机制；借助日志收集系统，完成离线统计和对账，通过日志搜索定位线上问题；针对SDK的特殊性，解决名字空间潜在冲突，并集成至各IM SDK简化集成过程。目前云账户钱包SDK已集成至五大IM SDK，并集成至上千个客户的产品中。

常雷：Apache HAWQ创始人，乐我科技CEO

讲师简介：常雷，博士，Apache HAWQ创始人，乐我科技CEO。曾任EMC/Pivotal研发部总监，Pivotal HAWQ团队负责人。并曾任EMC高级研究员，专注于大数据与云计算领域。于2008年获得北京大学计算机系博士学位。在国内外顶级数据管理期刊和会议（比如SIGMOD等）发表数篇论文，并拥有多项美国专利。

议题名称：云中Apache HAWQ服务：轻松取代传统数据仓库

议题介绍： Apache HAWQ是一个原生的SQL-on-Hadoop引擎，它的新颖设计有效得结合了MPP数据库的性能以及Hadoop的可扩展性优势。它给用户提供了SQL标准兼容的接口，可以轻松管理PB级数据，从而可以轻松取代传统数据仓库。本演讲将介绍云中Apache HAWQ服务的挑战和体系架构，并介绍几个关键部件的设计，包括云服务基础架构、基于代价的优化器，高可扩展UDP互联协议，弹性执行引擎运行时以及高级资源管理。同时还将介绍Apache HAWQ正在开发的新功能，以及未来的发展方向，包括针对点查询的高效索引，基于只读文件系统的更新，快照以及跨地域复制等。

更多讲师信息，更新中……

最后感谢本场论坛主席，来自中国科学院计算技术研究所副研究员查礼的组织和策划，为大家献上大数据分析与生态系统的盛宴。

责编：畅享精灵