扫描二维码

订阅畅享网微信

大数据基本概念及技术

来源:互联网  
2015/4/21 11:33:33
大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,不管什么,都要带上“大数据”三个字才显得时髦。大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?

本文关键字: 大数据 分析 技术 安全 影响

三、大数据技术

抽象而言,各种大数据技术无外乎分布式存储 + 并行计算。具体体现为各种分布式文件系统和建立在其上的并行运算框架。这些软件程序都部署在多个相互连通、统一管理的物理或虚拟运算节点之上,形成集群(cluster)。因此不妨说,云计算是大数据的基础。

下面介绍几种当前比较流行的大数据技术:

1.Hadoop

Hadoop无疑是当前最知名的大数据技术了。

2003年到2004年间,Google发布了关于GFS、MapReduce和BigTable三篇技术论文(这几篇论文成为了后来云计算、大数据领域发展的重要基石)。当时一位因公司倒闭赋闲在家的程序员Doug Cutting根据前两篇论文,开发出了一个简化的山寨版GFS – HDFS,以及基于其的MapReduce计算框架,这就是Hadoop最初版本。后来Cutting被Yahoo雇佣,得以依赖Yahoo的资源改进Hadoop,并将其贡献给了Apache开源社区。

简单描述Hadoop原理:数据分布式存储,运算程序被发派到各个数据节点进行分别运算(Map),再将各个节点的运算结果进行合并归一(Reduce),生成最终结果。相对于动辄TB级别的数据,计算程序一般在KB – MB的量级,这种移动计算不移动数据的设计节约了大量网络带宽和时间,并使得运算过程可以充分并行化。

在其诞生后的近10年里,Hadoop凭借其简单、易用、高效、免费、社区支持丰富等特征成为众多企业云计算、大数据实施的首选。

2.Storm

Hadoop虽好,却有其“死穴”.其一:它的运算模式是批处理。这对于许多有实时性要求的业务就无法做到很好的支持。因此,Twitter推出了他们自己的基于流的运算框架--Storm.不同于Hadoop一次性处理所有数据并得出统一结果的作业(job),Storm对源源导入的数据流进行持续不断的处理,随时得出增量结果。

3.Spark

Hadoop的另一个致命弱点是:它的所有中间结果都需要进行硬盘存储,I/O消耗巨大,这就使得它很不适合多次迭代的运算。而大多数机器学习算法,恰恰要求大量迭代运算。

2010年开始,UC Berkeley AMP Lab开始研发分布式运算的中间过程全部内存存储的Spark框架,由此在迭代计算上大大提高了效率。也因此成为了Hadoop的强有力竞争者。

4.NoSQL 数据库

NoSQL数据库可以泛指非关系型数据库,不过一般用来指称那些建立在分布式文件系统(例如HDFS)之上,基于key-value对的数据管理系统。

相对于传统的关系型数据库,NoSQL数据库中存储的数据无需主键和严格定义的schema.于是,大量半结构化、非结构化数据可以在未经清洗的情况下直接进行存储。这一点满足了处理大量、高速、多样的大数据的需求。当前比较流行的NoSQL数据库有MongoDB,Redis,Cassandra,HBase等。

NoSQL并不是没有SQL,而是不仅仅有(not only)SQL的意思。为了兼容之前许多运行在关系型数据库上的业务逻辑,有很多在NoSQL数据库上运行SQL的工具涌现出来,最典型的例如Hive和Pig,它们将用户的SQL语句转化成MapReduce作业,在Hadoop上运行。

四、和数据、大数据相关的职位

和数据、数据分析相关的职位有不少,大都不是新生事物。

1.有一个历史悠久的职位叫“统计”.一般的农村生产队都有统计员,工厂也有专门的统计职位。比如一个工厂里,每个车间每天都要上报各种原材料的使用、耗损情况、产品成品数,废品数等。这些数字被汇总给统计人员,统计员会做一个表格,说明某日、月、年的成品率、成品数等等概念。虽然看起来不够in,但实际上他们做的数据收集整理展示的工作,从根本上和现在的数据分析师是同理的。

2.另一个相对摩登一点的职位,叫做BI (business intelligence)。这个职位,其实和传统工厂的统计差别不大,如果说有差别,就是差在数据展示上。BI都被要求使用软件工具对数据进行整理和展示。比如,某大型生产型企业的BI,他的工作是统计该企业各种产品在各个地区的销售信息。他每天从拿到各个销售网点提交的excel表,把其中数据导出到数据库里,进行一些SQL查询,然后用可视化工具将结果生成图形表格提交给业务人员参考。

3.还有两个职位,一个叫做数据分析师(data analyst),另一个叫数据科学家(data scientist)。这两个职位,在有些机构组织中,职责不同;在另一些地方,职责相同,或相似,但级别不同。对于职责不同的地方,一般数据科学家要使用机器学习的算法,而数据分析师则专注在统计。

目前数据科学家这个词一般都和大数据绑定在一起,包括在美国,似乎一提data scientist就是做大数据的,但是实际上未必,很多有 data scientist 头衔的人,也确实在工作中大量应用机器学习算法,但是,他们处理的并不是大数据,很可能只是几十万,几百万量级的数据库记录。

4.(大)数据工程师(data engineer/big data engineer)。这个职位更偏重于数据本身的处理,即大规模(TB/PB级别)数据的提取、迁移、抽取和清洗。数据工程师也可以进行数据挖掘工作,或者协助数据科学家实现算法。

5.数据质量(data quality)。担任这个职位的,是保证各层级数据完整性和准确性的人员。他们负责制定数据完整性和准确性标准,设计检测方法并实施检测。

上述这些职位,主要指IT产业内的职位,其他还有一些在研究机构或者大公司研究部门进行算法优化和研究的人员,以及另一些相对低端的,手工清洗数据的劳动者(例如:在数据库时代,手工录入数据到数据库的人),就都不计入此列了。

五、大数据的影响

大数据概念的兴起正在对我们的社会产生多方面的影响:

1.定量分析

因“大数据”而使得人们开始关注“数据”,可谓最首要的影响。尤其对于国内而言,越来越多的决策者开始重视数据的力量,会在决断同时参考各类统计、分析报表,而不再是凭直觉拍脑袋。

2.从必然到相关

相对于传统的小数据统计,大数据更关注与发现事物之间的相关性,而非因果关系。人类历经百万年基于数据贫乏的现状而形成的“因为……所以……”的思维习惯,在大数据时代,是否会向“……有关联……”转变?

3.信息安全

以今日的技术,一个人的个人信息、网页浏览记录、购物记录、对图书影片等内容的偏好,在浏览不同页面时的行为习惯,如此种种,都可以轻易被商家或某些机构获取。在大数据的笼罩之下,每个人都将无所遁形。那么,对于每个人本该拥有的隐私权,该如何保护?

新技术解决了许多之前无法解决的问题,然而,新生事物也带来了新的问题。像所有技术一样,大数据也是一把 “双刃剑”.能否用其利除其弊,有赖于全社会的共同努力。

共2页: [1]2 下一页
责编:樊晓婷
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918