扫描二维码

订阅畅享网微信

【演讲实录】星环科技研发总监刘汪根:从架构视角看企业数字化基础设施建设

来源:畅享网  作者:畅享网
2019/7/22 10:39:48
以下为星环科技的研发总监刘汪根先生在上海市计算机用户协会七届二次会员大会的演讲,演讲主题为《数据云-企业数字化基础设施建设的新方法》,由畅享网整理发布。

本文关键字: 企业数字化

【导语:2017年,数据云技术作为十大科技新概念之一被提出。从根本上讲,不管是个人信息云,还是应运而生的数据云,其提出和发展都是建立在存储技术之上。针对企业数字化基础设施建设,数据云应该如何应用?以下为星环科技的研发总监刘汪根先生在上海市计算机用户协会七届二次会员大会的演讲,演讲主题为《数据云-企业数字化基础设施建设的新方法》,由畅享网整理发布。】

星环科技是一家本土化公司,以上海为总部,以北京、广州为区域总部,在南京、郑州、成都设有支持中心,同时在深圳、天津、武汉等地设有办事机构,现在也在向海外拓展。星环科技专注于企业级容器云计算、大数据和人工智能核心平台的研发和服务。

数据管理技术及发展趋势


早期的数据分析主要有两种。第一、依赖于交易数据库的纵向扩展-RAC体系。企业依托于数据湖,需要结构化数据,建立批处理系统,把所有系统业务逻辑进行建库、建仓,最终做可视化分析。第二、集团型数据仓库,依赖于ETL和数据仓库系统,进行可拓展架构,此项技术企业实行不多。  


基础架构研究者一直在解决数据分析的可扩展性及解决数据的多样性问题。大数据的核心点是SQL on Hadoop,大部分互联网公司按SQL、MR/Spark、HDFS的顺序来做,好处是成本低,结构化、非结构化都可以用,同时支持数据挖掘与实时计算。但也存在问题:成熟度,数据一致性,小文件问题如何解决?把数据库的功能加入DATA中,变成一个基于分布式的文件型 数据库,通过SQL提高数据库体验,用ACID解决HDFS一致性问题,通过存储层实现多模数据库就可以解决这个问题。

第二如何解决数据多样性问题?业务中的数据占一小部分,绝大部分的数据散落在各个地方。数据怎么整理?我们知道ETL,它适用于几十个系统的整合,依赖数据团队完成。而对各类数据的治理则需要利用Data  Curation以及众包和核心共享平台实现。共享平台以机器学习、自动化的方式接入数据并进行关联、转换、整理等。但机器学习不是万能的,需要专家的共享和协同,以众包的方式整理数据。这种新方向的支持性能数据湖,可以有效解决企业成百上千系统如何处理数据等问题。

从专业角度看,新的实时计算如何定义?第一高并发,瞬间高并发的数据操作或分析。第二低延时,要求毫秒级的处理响应时间。第三准确性,高可靠,这是生产系统必须要做到的事情。第四连续性,在线对接生产的数据业务。

实时计算引擎的核心有五部分:第一、流计算,提供低延时能力,提高高可用;第二、CEP,对多个输入事件进行计算,处理有状态的计算(一般会跟历史数据或持久化数据进行关联);第三、Rule Engine,给定一个事件的响应动作,处理无状态计算(无需跟历史数据或持久化的数据关联计算);第四、分布式缓存,实时计算有规则;第五、开发方式。企业在选择实时计算引擎的时候,这是五个必要的技术指标。

1.选择分布式交易数据库的指标


以微服务为例,要选择一个适合微服务的数据库。数据库无外乎可扩展性、高可用等硬性指标。不同厂商按指标选择的时间、路径是对的,从单机数据库到分布式数据库,采用分布式一致性存储与多租户隔离技术,将交易库于分析库独立开,使用基于容器的部署方式。

2.数据平台到数据科学的延伸

以人工智能为例,人工智能的科学家80%的时间花在做数据的分析、共享、搬运上,其中40%的时间在拷数据,导致效率降低,未来必须有一套数据平台和数据文件系统。星环研发的思路有两个点,第一个是领先一代,在用户还没关注spark的时候,我们完成spark的改造,2017年完成实时计算引擎研发工作。第二个是自主可控,2017年星环把所有的产品放到Transwarp上,未来两年星环会完成所有产品的自主改造。

应用开发技术的演进

单体应用存在重复开发多、部署不灵活、扩展性不够、开发率低等问题。微服务开发模式好处是交付迅速质量高、避免重复开发、运维灵活。


现在大部分企业依赖于自研+外包的方式,不同的供应商选择的技术不同,尤其数字应用方面,千人千面。数字化缺乏统一方案及自主可控的研发平台,导致数据及业务集成困难,技术孤岛形成。所有数字化应用的核心是数据驱动业务,要跨出上线迭代。


图中左侧是典型开发平台的模式,如果要做微服务开发,在测试上用公网的环境来做,企业内部要有多个云。很多企业反馈要转变原有慢的迭代模式替换快的迭代模式。IT为什么对业务的影响力弱?因为牌不多,很多事情只能被动响应,现在不同,可以主动出击,构建业务共享中心,业务中台。

简单讲,企业后台已有许多子服务,当需要开发一个新业务时,只要开发人员开发一小部分与此业务相关的逻辑或直接做一个流程广播软件,把子服务编排产生一个新的应用即可。企业的数据应用中心,已经积累沉淀了开发好的数据,并且可以被其他部门复用的这是最好的,但现在很多的研发部需要从零开始做,每一次都是小的迭代,管控成本很高。

企业数字化基础建设的新方法-数据云

我研究数据多年,企业的客户主要做四件事。第一,把数据集中统一起来;第二,把数据明码标价了解其用处,把业务价值标出来进行资产化;第三数据业务化;最后是企业生态化,行业赋能。

从更高视角来看,数字化转型与技术部门看的点无非在三块。业务演进从传统业务模式转向数字化业务模式,让数据在每个环节都产生价值,使得用户至上,让产品互联网化、自动化、智能化。科技部门看来三件事:业务如何开发,数据怎么用,底层的资源管理平台怎样管理。

我们早期常用的IT模式是传统IT模式,再到第二阶段基础云IT模式,最后一个阶段是云原生IT模式。现在一个名词叫“数据中台”,讲的就是数据怎么支持业务,数据怎么分门别类建模型,怎么做多租户。


从逻辑视野看,客户是基础;第二层是业务服务层,所有的逻辑业务构建在这层;第三是科技部门最核心的数据业务中心,里面有大量服务沉淀的数据,各部门都可以进行复用;数据架构的持续演进,第三层数据服务中心和云基础平台,我们称为“数据中台”。


那么,作为一个技术管理者,如何把这项技术落地?第一件事情是目标,以资源为中心,数据为中心业务导向。第二件事情在底层技术上,虚拟化、容器化,云计算是个趋势。从技术角度讲,容器化在最终单位的点产生的计算能力上,比虚拟化要好的多。第三件事情从广到通,以前垂直的技术为了广,现在我们要做的是共通。最后是技术栈,这是层次化的设计,每一层形成统一的认识,设计好架构。架构核心有四点:1.要用原生的云技术打造;2.以数据为中心;3.提供完整工具链;4.数据和应用之间互通互联。  


从软件设计的角度来看,星环的解决方案——星环数据云TDC,是业内首个通过云原生技术提供完整的数据库PaaS、应用PaaS和分析PaaS的云产品,可以更好地促进数据、应用和智能的融合。我们的平台规划分三类,第一类是数据平台服务,即七大类数据库(交易、分析、实时计算等)。第二类是分析平台服务,即建模。从数据分析报表到数据建模,最后发布。第三类是PaaS平台,即共享中心。这是我们按照思路设计出来的产品,不管企业是自研还是其他方式,都需要有这些方案进行划分,最后在业务架构层按照层次设计,就不会走太多弯路。

谢谢大家。

责编:畅享精灵
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918