|
大数据的故事——战场IT年有热词出,今年轮到大数据。各种厂商齐上阵,热度不输云计算。词红是非多,本是正常现象。在奥巴马竞选连任都要归功于大数据的同时,“大数据”所受到的质疑,也颇有超越“云计算”当年之势。 IT年有热词出,今年轮到大数据。各种厂商齐上阵,热度不输云计算。 词红是非多,本是正常现象。在奥巴马竞选连任都要归功于大数据的同时,“大数据”所受到的质疑,也颇有超越“云计算”当年之势。 不过,即使在一两年前,围绕云计算虽仍有不少争论,但已更多的集中在实现路径等技术层面上,对云计算概念和价值的质疑逐渐减少。大数据则不然,随着宣传覆盖面的扩大,更多看似与最初大数据定义无关的厂商或组织加入,迷惑与反感的声音也逐渐响亮起来。 这货连任真的多亏了大数据?斯巴达…… 很大程度上因为,云计算更多是IT层面可以决定的事情,大数据则很大程度上升到了管理层面,而技术解决不了制度的问题。 2011年,新加坡-麻省理工学院研究和技术联盟(SMART)高级研究工程师Oliver Senn在一项联合任务中花了五个月向市民提供实时数据和见解,帮助他们改善城市面貌。刚接受将两个月的气象卫星数据和GPS记录下来的8000万辆出租车程的8.3亿次记录进行比较的任务时,Senn有一点失望。“新加坡每个人都知道下了暴雨是不可能打到车的,”Senn说到,“所以我希望这些数据能基本证实这个假设。” 随着他对一个有超过1.6万辆出租车的车队的相关数据进行筛选,一个奇怪的模式浮出水面:似乎很多出租车在下暴雨的时候并不开。实际上,GPS记录显示:下雨时,很多司机都会把车驶到路边,根本就不载客。 Senn和司机坐下来面对面确认了自己的研究发现。他了解到,拥有该岛国最多出租车的公司会在发生事故后立即从司机的工资里扣除1000美元,直到确定谁是责任人。事故的解决过程会持续好几个月,所以司机们认为不值得拿自己的生计冒险和官僚机构纠缠那么久。所以开始下雨时,他们就会把车驶到路边,等暴风雨过去。 作为该数据研究的一项直接结果,这一意想不到的新发现使这家公司目瞪口呆。现在,有了对这一情况的了解,他们正在确定如何制定不存在漏洞、使客人、司机或母公司明显无空可钻的政策。 生活在北京的同学们,上面这个大数据的故事是否很面熟?而我们也很容易从必要性和可实施性两个方面来否定其实用价值: 这事还用数据挖掘?随便找一个出租司机问一下不就知道了。真是浪费电。 北京出租车行业各种乱象的症结大家都心知肚明。上层没有“要改”的意愿,什么技术手段都没用。 要了解对北京出租车行业的抱怨?看看中科院软件所研究员张云泉9月25日发的微博就知道了,40天后的今日依然活跃在微博上,转发次数超2万……您千万别跟我说这也非用大数据的技术来挖掘不可 讲个故事容易嘛?可是还得讲,因为需要在管理层面体现价值的事情,必须先做好管理层的工作。与具体的技术实现等程序员、工程师们喜欢的所谓“干货”相比,讲故事的方式更容易被高管们接受。 所以,在推广大数据概念的路上,讲故事之风盛行。只是,找到好的故事素材不易,把故事讲好就更需要功力——或许,还有那么一点点运气…… 大数据不大? 要讲大数据,首先绕不过“什么是大数据?”这个问题。 从技术的角度出发,很容易质疑“大数据”这个词不准确。虽说技术宅们成天挂在嘴边的名词也未必都那么严谨,譬如“硬盘”本应叫“硬驱”,固态硬盘更不“硬”(完全承袭“硬盘”的叫法罢了),但已经是约定俗成,准确性差点儿意思没关系,大家都知道指的是什么东西就行。 大数据则不然,即使和同样商业含义浓厚的词汇比起来,它也够令人不知所云的了。 以“电子商务”为例,当初这个词刚开始传播的时候,大多数人无法想象到今天的样子,但不难理解是“商务”与“电子”的结合,意味着一类新的商业模式。可是,“数据”加上“大”呢? 更大的数据?以前的数据不大么?大与不大,这个分野如何界定? EMC公司Greenplum事业部市场副总裁Michael Howard介绍大数据涉及的数据生成源 如果抓住“大”的字面意思不放,那么,无论从增长速度、在“数字宇宙”中所占比例,还是单个文件的尺寸,视频都应该符合“大数据”的定义。但是,受到技术手段的限制,现在还很难对视频的内容进行有价值的分析利用。所以,在各种关于大数据的故事中,视频应用的案例很少,介绍大数据的视频倒是很多。 据说,美特斯邦威曾经在埃森哲的帮助下做过尝试,在店铺内摆放衣服的位置放一个摄像头,看男女怎么选择,少数几个参数(软件基本也就能分析出来性别,追踪活动轨迹吧)。得到的结论是,原以为买T恤,北方男士应该多选暗色,南方多选亮色。监控视频分析的结果恰恰相反,经过对顾客的调查发现,北方男士选择亮色,是为了看起来暖。有点儿意思,但是不符合大数据4V定义中最关键的“Value”,缺乏商业价值。 今年7月,英特尔在国内宣布英特尔发行版Hadoop时,请来据称2011年全球视频监控产品市场份额排名第一的海康威视站台。海康威视副总裁蒋海青认为,“平安城市”的视频监控应用所产生的数据在规模和结构上,都符合大数据定义。现在视频监控所采集的视频质量从标清进步到了高清(注:这个标清和高清,与我们看的电影不是一个定义)的时代,可以想象一个大型“平安城市”项目所产生的数据信息量何等之大。并且,“平安城市”视频监控采集到的海量数据也和其他种类的大数据一样,只有进行了智能、高效处理才更具价值。以上两点确定了“平安城市”视频监控应用必将成为大数据应用,也决定了它需要大数据技术予以支撑。 “必将”我们不怀疑,但不知机器(软件)对视频内容的识别可以很大程度上代替人工的那一天,“大数据”这个词还能否在人们的脑海里浮现。至少,蒋总没有说清楚,热炒的一堆有关大数据的技术,在对视频监控内容的分析上,发挥了多大的作用。 图片文件的尺寸比视频文件要小很多,但数量巨大,总体规模和成长速度也相当可观。图片内容的识别也非易事,Google有图片搜索,Flickr的图片也可以根据色块进行分类,但要在图片内容的分析上达到如多数“大数据”宣传般的水准,也尚需时日。 IBM近来对大数据的4V定义,与早期的三V一C相比(还有一个V是Value,作为衡量结果),Complexity(复杂性)被换成了Veracity(真实性),其中指出了对于社交数据,要考虑如何筛选出可信的数据 与视频相关的企业如YouTube、NetFlix,要运用大数据的技术,追踪、分析用户观看或租赁视频内容的行为与联系,进而指导业务,并非难事,甚至已经实现。但是,在这种情况下,不管容量多大的视频或DVD,在“大数据”处理系统内可能都仅表现为一个个ID,衍生出来的一系列相关数据,总容量(相对而言)并不大,仍然是用传统或新兴的数据库/数据仓库来处理。如前所述,对于体量更大的视频内容本身,现在能做的,还很有限。 为了这个“大”字咬文嚼字半天,貌似英文用的“Big”也不仅仅是体量大。大数据4V定义中,与“大”比较直接相关的是Volume,不能单纯理解为“容量”,还有“数量”等含义,可以理解为“海量的数据规模”。但这样一来,似乎就落入到“海量数据”的窠臼里了,不Fashion…… 所以,数据大不等于大数据,为了突出不是现有设备、技术、方法所能处理的传统“海量数据”,推广者们不惜生造出来了“大数据”这么个看起来很不严谨的词。如果放宽容忍度,能知道我们提起“大数据”时,大概指的是哪一个范围就算不错。 责编:毋小艺 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|