十大企业的大数据实践

来源:互联网  
2014/11/14 13:40:16
尽管“大数据”在最近几年才引起人们的关注,但许多互联网公司走在了时代的前面,他们作为大数据时代的先行者,为如今的“大数据”的兴起奠定了基础。

本文关键字: 大数据
Oracle最初的业务仅是数据库,这也是他存在的基础,直到1987他才成立了一个仅有7人的软件开发部门,管理也十分成松散,而这个部门成立的理由只是因为Oracle公司需要一个财务管理系统。就在这种偶然下Oracle开始了“大数据”业务的发展,至1996年,Oracle赢得了华为的合作,稍后又拿到了美的、中兴的订单,直到1998年,他们已经拥有了1300位客户。仅用了6年时间,Oracle就超越了诸多前辈一跃成为应用软件业的第二,虽然同SAP仍有很大差距,但已经是一个不小的成绩。
 
Oracle应用软件的创始人杰夫·沃克说过:“尽管SAP有R/3,但在应用软件市场上,他们并没有达到高不可及的程度,他们并没有真正做到象Oracle那样成功。”到目前为止Orcale已经成为了应用软件业仅次于SAP的公司,为戴尔公司、苏格兰皇家银行等业界巨头提供服务。其中,波士顿医学中心在使用了Orcale的应用服务以优化其临床及数据存储环境之后,不仅消减了存储成本并且使其性能也提高了74%.
 
不论是IBM、SAP还是Oracle,都是依靠应用软件服务来创造盈利,他们在“大数据”的数据服务上已经取得了成功,其占据的市场份额是后起之秀们难以企及的。其实他们所做的并不复杂,可他们发现了前任未曾发现的信息。国内外的企业中,做应用软件的不少,意图涉足大数据领域更多,可是却仍在低端市场中苦苦挣扎,这并非管理水平偏低的原因,而是因为太过看重自身的利益而忽略了“大数据”业务发展的必然条件,成本的降低与服务的提高,只有针对这些不变的点,才能真正走上“大数据”的发展道路,成为下一代领导者。
 
百度、google:不要再把我们看做搜索引擎,我们正在做些别的事情
 
“新一代的数据收集不仅是数据工具,数据本身会有很大的发展。”李彦宏如是说。
 
同样是2014巴西世界杯期间,百度“世界杯预测”上线,尽管足球是一件不确定性级高的事情,可在比赛结束后发现,百度这次的预测无一错误。想想世界杯时无数走上天台的小伙伴们,若是知道百度有此神器,应该是有些感想的吧。
 
在其赛事预测的产品说明中写到“百度大数据部收集了2010-2013年全世界范围内所有国家队及俱乐部的赛事数据,构建了现在的赛事预测模型”,这是其利用“大数据”在传统领域的又一次尝试,并且他们希望在建立起成熟的模型之后,在球队训练、体彩等方面发挥商业价值。可以推断,百度应该在“大数据”上有着极大的野心。
 
球赛预测的结果是可喜的,不过百度在另一项事情的预测上则栽了跟头。在《黄金时代》上映之前,百度发布会上宣布电影《黄金时代》的票房预期可达2.0-2.3亿,当时的媒体都认为这个数字估计的太过于保守,然而截止到10月16日,《黄金时代》的累计票房为4698万,如此成绩对于片方、媒体和公众而言都是出乎意料,2.0亿的票房估计竟然已经算是十分乐观。这并不是百度第一次做票房预测了,早在7月14日爱奇艺就透露在内部,百度票房的预测已经有了百分之八十的准确率。百度也因为此次的预测失败而推迟了票房预测产品的上线,我们可以看到在百度预测中,电影票房预测那一项仍是灰色,标注着“即将上线,敬请期待”的字样。对此,可能的原因是类似《黄金时代》的文艺类影片样本较少,不确定性大。
 
同百度这次失败同样的,他的竞争对手Google也有马失前蹄的时候。在2008年Google推出了他的Google Flu Trends流感预测服务,在这之后的几年时间中,预测的结果都是准确的。这也帮助各国对即将到来的流感进行了有效的预防,避免了更大的损失。直到2013年2月,Nature上出现文章,表示GFT预测的全国范围的流感样疾病(占全国人口的比例)近乎是实际值的2倍,这是由于Google所抓取的数据是直接从搜索引擎中来,这就使得真正的流感患者同跟风搜索流感的人混淆在一起,最终夸大了流感人口的比例。
 
可见,“大数据”中最重要的不是分析数据而恰恰是数据本身,如果数据本身存在着问题,那么不论算法如何正确出来的结果也是失之千里。
 
当然这仅仅是两个微小的错误,并不能就此否定这两家公司在“大数据”上做出的努力,毕竟以搜索引擎起家的他们天生就具有“大数据”应用研究与实践的优势。如今百度已经有了一套看起来更完整的“大数据”引擎系统,共三个部分:开放云,百度的大规模分布式计算和超大规模存储云,对应到Google则是他举世闻名的数据中心以及基于Colossus的云;数据工厂,百度将海量数据组织起来的软件能力,对应到Google,其近年来为迎接大数据时代不断改造核心技术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel.百度大脑,能够应用这些数据的算法,对应到Google,Google提供的大数据分析智能应用包括多个方面,技术有Big Query、趋势图等。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。可以说二者在如和发展“大数据”上思路及其一致。在百度预测的界面我们可以看到已经能够看到一个预测开放平台,为每一个用户提供平台化的预测服务。借助这种服务,应该能够更准确地预见未来的趋势,趋利避害。譬如通过“疾病预测”,可以知道同类疾病全国哪家医院最好,同城医院中,哪家医院现在排队人数较少,或者当前天气需要预防那种流行病;通过“景点预测”,我们能够有效地规划出游行程,只能看人不能看景的情况,而景区也能够据此作出正确的判断而非依靠以往模糊的经验。对于企业来说,能够有效地规避风险,调整战略,进而减低成本,缩减开支,最终达到效率与收益的提高。
责编:李玉琴
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918