微软孙凯博:大数据改变世界的运行方式

来源:中关村在线  
2012/7/17 18:23:20
大数据是全新的技术吗?大数据可以来自于企业内部,也可以来自于企业的外部,也可以来自于整个产业链伙伴的数据。另外,也可以来自于社交媒体,通过企业社交获得的数据很多是无序的,也是一个非结构的数据,我们如何去处理这部分数据?如何有效地处理这部分数据呢?7月13日,在第二届大数据论坛上,微软亚太研发集团首席技术官孙凯博作对这些问题给出一一解答。

本文关键字: 大数据 Microsoft 数据分析
大数据是全新的技术吗?大数据可以来自于企业内部,也可以来自于企业的外部,也可以来自于整个产业链伙伴的数据。另外,也可以来自于社交媒体,通过企业社交获得的数据很多是无序的,也是一个非结构的数据,我们如何去处理这部分数据?如何有效地处理这部分数据呢?7月13日,在第二届大数据论坛上,微软亚太研发集团首席技术官孙凯博作对这些问题给出一一解答。
 
“数据库、大数据已经成为变革的中心,事实上可以成为一场革命,在IT领域、制造业、零售业、政府管理、科技,大数据都改变了整个世界的运行方式。因此,我们称之为大数据的新世界。”孙凯博上来就给大数据定位了一个重量级的位置。
 
当前的趋势推动了大数据的变革,大家都熟悉其中或者全部的趋势,但是我们需要用全新的眼光来看。大家都意识到移动设备的爆炸,每个人都有一个或者一个以上的移动设备。现在全世界的移动设备用户可能已经达到了55亿,这占了人口的70%以上。社交网络,无论是Facebook还是Twitter,还是微博,用户已经超过了20亿,之后还会增长。这种连接性就是网络,流量数据的爆炸性增长。2015年,我们预计会达到1.6十的21次方。在几年之内这个数据会呈爆炸性的增长。
 
 
这不仅仅关乎到网络用户,还关乎到传感器,孙凯博预计会有100亿的传感器连到网络上,这一切都为社会带来了大数据的新变革。
 
 
另外,两种技术趋势也有通过作用,价格低廉的计算,我们可以花不到100美元就可以买到1个T的存储,只是十年前价格的1%。价格低廉的存储和计算是大数据的推动力。
 
什么是大数据?
 
当前的大数据定义五花八门,那么,孙博凯给大数据做了什么样的定义呢?他认为:大数据是海量的,是巨大的,它关乎数据量。可以从三方面定义大数据:1,数据量;2,广度、分类;3,速度。这代表了这个速度以及它这个类型的复杂性,代表了数据的复杂性。
 
十年前或者十五年前,当时有ERP和CM的数据,来自于我们的交易、产品销售、客户的数据,是一些词汇和数据。随着Web2.0时代的兴起,数据量开始攀升,同时数据的分类也不断地丰富,网页、文件、日志,新的数据存储形式就不断地兴起,这样我们需要新的数据平台对此分析和存储。今天在一个大数据的时代,电子商务、网络、传感器的数据流、太空数据,有更多的数据类型,并且衍生的数据非常之快,规模非常之大。因此,我们可以看到这个3V(量、速度、类型)概括了大数据的特性。
 
为什么微软对此如此关注呢?
 
我们有一些做技术的,我们非常关心,其他人为什么如此关心呢?其实大数据可以使我们问出新问题,来了解我们的业务。比如社交网络分析,一个企业,即使你是一个个人,你也有一个品牌,如何分析你的品牌影响力、品牌声誉如何,这些问题之前不容易被回答,现在在大数据的时代可以很容易得到答案,并且几乎是实时的以非常快的速度。
 
如果你有一家物流公司,你有卡车、运输工具,你希望优化你的车队,基于实时交送信息、天气信息、其他类型的信息,现在通过传感器、通过大数据就可以做到。
 
即使是其他方面的一些分析,都塑造了我们的世界,不仅仅是过去、现在,还可以对未来提出疑问,如果开发一种新产品会怎么样?在市场上的反响会如何?就是预测性的分析,大数据技术使之成为可能。事实上,关于过去、关于现在、甚至是关于未来,大数据使之成为可能。
 
 
大数据=大商机
 
大数据意味着大商机,这是一个大的,可以说是重中之重的事项。对于CIO和CEO来说,无论是已经开始做大数据了,还是已经开始希望做大数据的项目,研究结果表明:有一个公司或者组织利用大数据技术,另一个公司却没有利用,未来它们的财务状况会出现明显的不同。因此,大数据已经成为了竞争力,要保持竞争优势的话就必须采用大数据技术。当然,我们是做大数据相关的软件或者应用解决方案的话,这意味着大商机。如果IT业增长5%-10%,大数据服务在未来的几年中会达到30%以上的增长,产值达到100亿美元之上。这就意味着来自许多不同产业,包括微软等许多大公司的投入。
 
 
大数据生命周期。在下面的演讲中,我会讲一下微软以及对于大数据的处理方式,大数据不是一项单独的技术,人们经常想到大数据的时候,人们说这是一种技术。但是事实上,它意味着管理,大数据端到端的生命周期,我们讲到生命周期的时候就讲到三步:管理数据,如何获取、存储保护安全数据;下一步如何保护你的数据,如何清洁,如何发现相关的数据,如何将其他的数据与其连接起来;最后如何在数据终得到洞察力。
 
 
微软一直在做SQL平台,我们非常注重建立一个综合性的数据平台,十年之前我们有一个愿景,建立这样一个体系可以管理任何种类、任何大小、任何来源的数据,无论是你的数据中心还是智能终端,还是你的云,我们一步步地在实现这个愿景。现在SQL已经成为非常综合性的平台,可以做关系数据、其他数据,比如说空间数据、图像、数据流,数据流对未来是非常重要的。同时,也做高性能的数据存储和获取,以很高的数据把你的数据存储介质,捕获这些数据是越来越具有挑战性的。
 
我们有很多版本的SQL Server,今年推出了2012版,我们的客户分布于北美、欧洲、亚洲,在中国它们都在用SQL Server2012,下面我给大家展示一个视频。(播放视频)这对我们的业务来说是非常关键的,这可以使我们的管理比以前复杂一百倍的数据。我们之前可能需要几个月的时间来分析数据,现在只需要几天。
 
Hadoop集成Hadoop integration。Hadoop可以在我们的数据平台中做集成,我们现在在做这个Hadoop的集成,但是并不仅仅是把Hadoop放在Windows Server、Windows Azure,它很容易应用、容易部署、安全、可扩展性、管理,这些都来自于Hadoop平台,这些为Hadoop带来了新的世界。我们的一个关键特征就是Hadoop在Windows Azure是一个云平台,如果你们部署过Hadoop的话,这不是一个很简单的过程,它需要几天甚至几个兴起的时间来做Hadoop集成。事实上,在微软Azure中,一个小时就可以完成,可以开始应用,人们对这个生产效率非常惊讶。事实上我们希望在微软的平台上优化Hadoop。
 
开放和灵活 OPEN&FLEXIBLE。我们希望有一个开放和灵活的方法,把Hadoop放在我们的平台上,我们正在和一些Hadoop的关键供应商进行合作。与Apache Hadoop百分之百兼容,工具由丰富的合作伙伴生态系统提供,与社区的紧密合作伙伴。同时,我们也带来其他的利益,我们采取非常开放和灵活的态度和Hadoop进行整合,整合到微软技术上。
 
 
如何丰富数据?
 
把你的数据和世界其他地方的数据连接起来,如果你的传感器、你的网站、你的智能手机上接收了数据的话,首先你要保证它是清洁的、准确的。然后你会发现一些附加数据,与你所要分析的相关数据,你可以把自己的数据和Web数据整合起来,从中得到洞察。
 
 
如果你是从事销售行业,有一些地区客户希望看到自己的业绩表现如何,但是这不仅仅关乎自己的销售业绩,还需要看自己公司内部同事的业务如何,你自己做得比他们好还是比他们差;或许你还需要看一下其他的公司,其中有一些是你的竞争对手、有一些是你的合作伙伴,他们做的如何?你比他们做的好还是差?有什么不同点;或许你还想看一些全世界的数据,全世界是加速还是放缓、软着陆还是硬着陆?这对于你将会产生什么影响?实际上,我们需要端到端的数据,这些才会得到洞察,创造价值。
 
 
在Windows Azure上有一个数据集市,这是一个非常与众不同的概念。数据集市意味着什么呢?如果你是一家公司,如果你是Forrester Research,或者是咨询事务所,或者是制造商,或许你有一些对于其他公司非常有意义的价值,将你称之为一个内容提供方,可以把这些数据放到微软数据集市上为其他公司所用,无论是免费还是你自己定下的价格,它取决于应用模式和价值。还有开发商,如果他们希望用这些数据的话,可以在Windows Azure平台上定制这些数据,并且应用数据。现在我们在Windows Azure上有几千的数据提供商,联合国数据、世界银行,甚至一些中国的内容提供商,这是微软平台一个与众不同的特征,数据集市是一个多赢的结构,无论是对于开发商还是从事信息的各个方面来说。
 
能够洞悉大数据的工具
 
对任何种类、任何大小、任何来源数据的洞察力。对每一个数据提供洞察力,不仅对CTO、CIO、CEO提供洞察力,不管他们在哪里、不管他们用的是什么设备,这都是我们平台独特创造的一个地方。可能现在还有很多人不太记得二十年前E-mail,在大学教授中才有E-mail,而学生中是没有E-mail的。现在商业智能也只是在最高层中的领导中才有使用,不可能在任何一个组织的员工中都有这样的工具,也不可以每天都应用。我们也希望他们能够在所有的数据中提供这样的洞察力,不管是关系型的,还是非关系型的,还有流线型的。事实上,还有很多这样的数据融入到这个平台中,这也成为我们这个平台重要的组成部分之一。
 
孙博凯:现在还有一些新的工作机会也因为大数据而产生出来,现在在IT行业当中,我们有数据科学家,在北京有很多这样的工作岗位正在招聘人员。所以说,我们必须要为各种终端用户提供合适的工具,他们并不是科技人员,他们只是商业情报的分析人员,我们也需要给他们提供这样的工具,我们也需要为数据科学家提供这样的数据。
 
通过熟悉的工具,为所有用户提供对数据的洞察力。
 
当你谈到这些不同的人员,数据科学家可能有博士的学位,他们对数据科技有很深的了解,他们能够分析很多这样的数据,并且利用这样的工具来分析数据。微软也与很多的工具提供商进行合作,来让数据科学家能够在世界的其他地方运用其他的平台进行工作。
 
商业智能专业人员,我之前也与这样的人员进行工作过,但是他们都还是希望有更加互动的工具,使他们能够对数据进行切割,能够更加实时地对数据有更深入的了解。他们可能不一定像数据科学家那样处理数据那么大,但是他们处理的数据也是具有相当大容量的,并且他们希望以实时的方法进行分析。
 
还有一些业务分析人员,还有一些商业分析人员,他们也是处理数据,希望Powerpiovot来分析数据。Powerpiovot是为商业人员提供一种分析,人们可以分析汽车的数据,他们有汽车、销售,根据季度进行分析,这是完全根据网络进行分析的数据,它是非常互动并且流畅的工具。(播放视频)这是为商业人员提供的平台,可以看到不同的车型,有紧凑型,有SUV,在底部有商业分析人员正在给大家展示销售额,并且为不同类型的车进行分析,它可以改变容量并且进行分析。我们给用户提供的体验是独一无二的,并且是为这些商业智能人员。chart中有很多的模式,比如你想看第三季度,你就点击一下,这是非常实时的,然后数据就会进行实时的改变。现在正在给大家展示一个不同的图表,下面的数据是市场销售额,在上面我们可以看到每一个数据所对应的油价,可以看到油价不断上涨或者下跌的时候,不同车型的销售额也就会随之上涨或者下跌。
 
所以,之前我也说过,这并不是你自己的数据,而是将你的数据与世界相连,如果油价上涨的话,在三个月之后新能源车的价格就会上升,这都是你能够在几分钟之内得到的数据,这是非常互动的数据。希望大家能够了解我们所提供这样工具的原因,因为在最终是关于数据它的容量、它的大小与其他数据相互的连接。
 
 
微软大数据客户案例
 
云。这家公司所做的就是连接10亿的数据源,我们对每一个个人、品牌合作形成一个云的分数,因此它们的业务就不仅是生产、零售、实体商店,我们给它们提供这样的数据,大数据能够提供全新的数据模式,它们可以利用这样的平台和这样的数据来实现业务的可持续发展。
 
微软大数据客户案例
 
端到端的大数据解决方案。如何来丰富关系型、流线型的数据等,使之与世界相连,并且获得洞察力。微软也是致力于提供端到端的平台、更高的集成和更多的平台,给大家提供市场上好的产品。
责编:罗信
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918