|
刘振飞:做云计算比保障双十一要难得多阿里云基础设施的刘振飞一度非常困惑:淘宝、天猫、支付宝这么大的网站,我们可以把它的稳定性搞得很好,双十一这么大的活动,我们也能hold得住。为什么同一个平台,同一班人马,支撑云计算平台上面那些小得多的客户却不那么轻松呢? 一年一度的双十一刚刚落幕,全天交易额571亿再次创下世界纪录。奇迹背后,是刘振飞和他领导下的阿里技术保障部(关于技术保障部的故事,请阅读《凌云》第4期中的文章《阿里技术保障部:阿里云的幕后英雄》)的保驾护航,经过多次历练,他们对于世界最大规模的促销活动已经轻车熟路,有了成体系的打法。 然而,同时也在负责阿里云基础设施的刘振飞一度非常困惑:淘宝、天猫、支付宝这么大的网站,我们可以把它的稳定性搞得很好,双十一这么大的活动,我们也能hold得住。为什么同一个平台,同一班人马,支撑云计算平台上面那些小得多的客户却不那么轻松呢? 2014年10月的阿里云开发者大会上,刘振飞现场列举的几条用户投诉单非常直观地反映出目前云计算平台所面临的各种困难: ● 不要重启我们的服务 ● 你们的这个机房为什么访问质量差 ● 你们能不能快点解决我们的问题 ● 我们家在做活动,你们怎么能当成攻击 ● 封源是打击敌人,封目标是坑爹啊 对此,刘振飞其实做过很长时间的思考,他在采访中特地总结了云计算的几点特殊性。 第一,客户数量。云计算平台上的客户数量数以百万计(到2014年6月阿里云的客户已经超过140万),虽然规模远不如阿里内部客户,但这个数量对于平台是很大的挑战。每天如果有万分之一的客户有问题,那也是几百个问题,如果没有很好的对应的自动化流程,会让技术保障团队疲于奔命。 第二,客户技术水平。之前淘宝和天猫等应用的体量大,系统架构做得好,在应用层面就屏蔽了底层基础设施各种可能发生的问题,可以让消费者和商家对底层问题无感知。云计算对外服务则大不一样,外部客户的应用类型千差万别,技术水平不尽相同,底层机房、服务器、网络、存储等硬件的小故障,都可能直接命中上层的客户业务应用,致使服务受影响。 第三,对客户的了解。内部客户的各种业务活动技术保障部门是预先知道的,应用怎么写、架构也可以比较了解。很多时候可以针对性地做工作,防范各种可能的风险。双十一就是很好的例子,平台保障团队可以事先演练各种预案,做到万无一失。对于云计算的外部客户就做不到这一点,每天他们在做什么事情服务方是无法知道的。比如前面投诉单上出现的让人哭笑不得的一幕:客户的某次促销活动,被系统判定为DDoS攻击。 正是这些差异,使得之前在淘宝、双十一都行之有效的套路,放到云计算上却不那么灵了。归结为一句话就是: 做云计算很难,要求比保障双十一更高 刘振飞说,云计算其实是要将数据中心、网络、服务器、存储等硬件资源再加上操作系统、数据库等系统软件资源,打包成服务,变成一种社会化资源,向全社会提供。中国过去多年追求核心高端基础的软硬件技术自主化,过程非常艰辛。而现在,不仅要掌握这些技术,还要用全新的服务模式售卖出去,其难度可想而知。 提供服务比提供Windows那样的软件难度更大,它需要研发和运维成为一个有机的体系,而且规模必须很大。其中的核心,除了大量的资本与人力投入之外,至关重要的经验也必须经过时间积累。 刘振飞坦言,云计算服务最终只有少数大规模的互联网公司可以提供,美国是Amazon、微软和Google,中国现在阿里、百度和腾讯具备这种能力。“你根本没有做过,从来没有搞过那么大规模,相关的问题从来没有遇到过,怎么可能做好呢?”他举例说,像之前他们做的5000台集群直接拉闸断电测试,很多公司就根本做不了,因为他们连5000台机器都没有。云计算一定要上规模,没规模是不行的。这也是私有云只是过渡的原因。 责编:李玉琴 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 推荐圈子 |
|