大数据,Facebook的下一座金矿

来源:至顶网  作者:Gery Menegaz_ZDNet US
2012/9/4 10:28:30
Facebook核心的社交网络其实是一个广告公司,现在他们收入中有82%来自广告,但是Faceboo与传统网络广告公司Google的市盈率相去甚远,通用弃投Facebook或许也从一个侧面说明数字广告的价值正在不断减少。但是,Facebook的9.55亿用户中,一半以上的用户每天都在积极使用Facebook生成大量数据,也许这高达100PB的数据就是Facebook的下一座“金矿”——出售通过挖掘这些数据所获得的洞察结果,这些信息可以是几乎任何类型业务的基础。


就目前来看,Facebook核心的社交网络其实是一个广告公司。如果你看一下他们的季度报告,你就会发现约Facebokk有82%的收入来自广告,从一个侧面印证了这个断言。但问题是,“喜欢”某些东西,并不等于“购买”它。

大数据,Facebook的下一座金矿

你可能记得,作为Facebook广告客户的通用汽车公司,最近放弃向Facebook投广告。而另一方面,搜索与广告协同运作,这样你就可以有针对性地购买你可能感兴趣的广告产品,这是一种行之有效的方法,这是谷歌的优势。

当我们说传统的网络广告公司时,大多数人会想到谷歌。如果我们将谷歌和Facebook的市盈率(P/E)作比较的话,就会看到其中存在着很大的脱节。

市盈率P/E是指在一段时间内(通常是12个月的时间)是公司股票的价格和每股收益的比率。用谷歌作为一个例子,我们看到它现在的市盈率是18.88。这是因为谷歌目前的交易价格为每股636.69美元,而在过去的12个月收益为每股33.72美元,因此谷歌的市盈率就是18.88(636.69美元/33.72美元)。

在6月份时,我们看到了谷歌的市盈率为11,而Facebook是以预期收益的40倍进行交易的。因此,脱节之处就在这里。

根据Michael Wolff所说:“对于那些依靠网络广告做生意的人来说,现实是如今每个季度数字广告所能带来的价值都在下降。”

如果MichaelWolff所说的是正确的,那么Facebook将需要比广告更多的东西来进行实践和克服炒作问题。因此,Facebook需要的是一个“伟大的想法”。

Facebook的9.55亿用户中,一半以上的用户每天都在积极使用Facebook生成大量数据。麻省理工《科技创业》中引用Facebookd工程总监Sameet Agarwal的数据称,Facebook目前的数据量预计在100PB以上。“在过去的几年中,我们的数据量每年都要翻一番。”

大部分数据是在单一的Hadoop存储库中,如果适当地对这些数据进行挖掘,将有可能重塑我们对于人类相互作用以及社会最终如何协作的理解。这或许就是Facebook下一个伟大的想法。

但是如何开采这座金矿呢?

有着超过100PB数据并且每天都在增长的用户数据,Facebook已经基于Hadoop建立了一个数据存储系统。Apache Hadoop项目旨在开发可靠的、可伸缩的、可分布式计算的开源软件

Hadoop实际上是一个将大量数据集处理流程分发到多台计算机上的框架,它能够从单台服务器纵向扩展到成千上万台分布式服务器,提供一个高度可伸缩的、高可用性的大数据解决方案。

大数据,Facebook的下一座金矿

尽管编程模型的目的是要简单化,但这也被证明是一个相当复杂的进化,至少针对Facebook的需求来说是这样的。如果Facebook的“伟大的想法”是来自对数据的研究,那么他们就要适应Hadoop来支持自己的数据科学了。

Facebook与Cloudera、Hortonworks等厂商合作,构建了基于Hadoop的Hive数据仓库系统。Hive让Facebook由12位研究人员所组成的数据科学小组能够应用社会科学研究方法,来创建特定的查询,并对存储在Hadoop中的大型数据集进行各种分析。

Hive项目为数据科学团队提供了一个机制,可以用来在这些数据上构建一个项目结构,使用类似于结构查询语言SQL的语言(HiveQL)来查询数据;因此,允许他们来挖掘Facebook的数据。

据Greylock Partners的数据科学家DJ Patil表示:“Facebook数据仓库的一个潜在用途,是出售通过挖掘这些数据所获得的洞察结果。这些信息可以是几乎任何类型业务的基础。如果Facebook可以在不惹恼用户和监管者的前提下进行这项工作的话,那么这有可能会是有利可图的。”

责编:赵龙
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918