百度余凯：大数据人工智能

来源：CSDN

2015/1/6 9:17:03

2014中国大数据技术大会首日全体会议上，百度研究院副院长，深度学习实验室主任，图片搜索部高级总监余凯发表演讲“大数据人工智能”。对互联网公司来说最重要的是读懂人心，最重要的技术是基于大数据的人工智能。

学习的能力是智能的本质

那么什么是人工智能？应该包括哪几个方面，比如我们看到的机器人，首先他有眼睛，有感觉，能感知环境是怎么样，完成它任务怎么样做，通过感知把数据记录下来以后，要做思考，想想怎么做，后面你就可以行动。所以，感知、思考和控制是人工智能几个重要的方面。

我们看到很多科技公司推出各种各样的产品，比如说我们看到有智能手机、智能水杯、智能手环等等，还有百度推出的智能快搜，谷歌在做的智能汤勺，但是真正想一想这些产品是不是真的具有智能呢？我们把这些产品和60、70年代的老式收音机放在一边，他们的不同在什么地方？思考这些问题能帮我们想清楚未来方向，也可以区别现在的这些产品它到底是不是真的智能。真正的智能系统应该能随着经验演化越变越聪明，学习的能力，是智能的本质！

经验就是数据

那么什么叫经验？经验就是数据，所以我们到今天看到一个振奋人心的时代来临，这也是我们济济一堂来到这个会议的原因，这个时代是什么？就是大数据时代。

从万物互联到万物智能

今天在座每一位可能都跟我一样，身上带了至少两三个移动设备，平均每个人连到两到三个设备。半个多月前，在乌镇孙正义有一个更加疯狂的预测，预测2020平均每个人要连接到一千个设备，一千个设备包括你随身带的设备，你的wifi，甚至是监控摄像头。在移动互联网时代，我们看到的未来是万物互联，人跟环境，人跟物，物跟物之间都会发生连接。这种连接同时也意味着数据爆增，到达前所未有的广度和数量，大数据的时代使我们从万物互联到万物智能。

深度学习与大数据

很多拥有大数据的互联网公司，包括谷歌、脸谱和百度，都在成立研究机构，这个机构机构最主要的研究方向就是大规模的深度学习，聚焦点就是大数据驱动的人工智能。在百度内部，一个横跨各个产品线大项目获得了今年的百度最高奖，这个项目就是百度大脑。拥有上千台PC服务器，和将近1000台GPU服务器，构建了世界上规模最大的深度神经网络，百亿级的参数。我们基于这些基础设施，去研发世界上最先进的深度学习算法，包括语音识别、图像识别、自然原理理解、广告竞争匹配、广告建模等等。

深度学习其实它不是一个新事情，在30年前80年代末的时候，深度学习就已经是得到了广泛关注，而到了大数据时代的今天，它获得了更多的成功和影响力。为什么呢？

● 第一方面，深度学习模拟了大脑的行为。一开始做深度学习这帮人，他们的想法受到卷积神经系统网络的影响，在80年代受到了神经科学家对于视觉神经系统理解的影响；

● 第二，从统计和计算的角度来看，深度学习特别适合大数据；

● 第三，深度学习是End-to-end学习；

● 第四，深度学习提供一套建模语言。

大数据时代传统深度学习的误区

我具体给大家讲讲第二点，深度学习特别适合大数据下。在统计上面分析机器学习系统效果时，一个最根本的角度叫推广误差，推广误差可以帮助我们找到误差来源，从而设计出更好的算法。一个经典的分解方法，把推广误差分解成两部分：

Approximation error：数学模型不完美导致的误差；

Estimation error：数据不完美，比如数据有限或数据有偏，导致的误差；

Optimization error：算法不完美导致的误差。

随着数据规模的扩大，从推广误差的角度来说，传统的深度学习研究中存在着一些误区：

从Approximation error的角度来说，过去我们认为简单的模型就是好的，但实际上简单的模型是不够好的，随着机器的增多，参数越来越多，模型越来越复杂，是大趋势，过去认为简单的模型是好的这是错误的观念；