华悦网
当前位置: 首页 >头条 >科技 >正文

探秘淘宝技术双十一团队,技术创新推动新零售11月1

2018-03-29 04:25    

探秘淘宝技术双十一团队,技术创新推动新零售

11月11日,阿里巴巴又创下了新的交易奇迹。2009年阿里巴巴开启双11购物狂欢节,交易额从第一年的5千多万到今年的1682亿,双11已经成为全球所有商业力量在科技、大数据驱动下的一个全球大协同,技术人员也在一场场实战中不断探索技术的高峰,拓展技术的边界。在2017年双11期间,我们特别邀请了安卓绿色联盟的成员阿里巴巴淘宝的三位技术专家,探秘有关双11技术发展的那些故事。

技术专家简介:

白衣——

高级无线开发专家,主要负责淘宝Android客户端的架构以及性能稳定性工作

泽胤——

高级技术专家,主要负责淘宝消息推送等基础设施建设

王横——

高级测试专家,双11大促活动的测试项目经理

1、海量规模驱动技术挑战和创新

安卓绿色联盟: 当年大家对双11这个活动的预期是怎样的?有没有想到能做到今天这样一个令人惊叹的规模?

淘宝技术团队:早在2009年没有人预想过双11会是今天这样的规模。双11无论对业务还是对技术的挑战都非常大,虽然经历过许多年的双11,我们依然既期待又紧张:因为每一年都会有新的技术挑战和创新,期待的是可以去触摸新的技术高峰,紧张的是你没办法去预测这中间可能存在的问题,非常刺激,但是当你真正达成计划的目标和效果,甚至超过了预期,那种感觉还是非常自豪的。

安卓绿色联盟:最近几年,通过手机用淘宝APP来下单的用户越来越多,能透露这个渠道的占比和数量吗?

淘宝技术团队:2017天猫双11全球狂欢节总交易额1682亿,其中无线交易额占比90%,成交商家和用户覆盖222个国家和地区,去年的无线占比数据是81.87%,可见这方面的数据增长也是很快的。

2、每一次双十一背后都有千万次演练

安卓绿色联盟:我们看到每年双十一的预热都非常早,持续很长时间,在这期间测试人员、研发人员都需要做些什么?

淘宝技术团队:每年双11的筹备启动都很早。一般情况下,我们会在双11前提前发一个双11的APP版本。每年7、8月份,双11业务上的需求就过来了,比如今年的互动玩法,创新的消费体验,大家敲定了方案就开始立项开发、测试。服务端会在提早预估今年的流量和技术上的目标。我们为达成目标要做哪些事情,要多少台机器,做哪些改造,都会有计划,步骤明确后一步步执行。每个人各司其职,就象一台精密的机器,环环相扣,紧密结合。

当然,每年我们都在进步,进步的最根本一点就是准备工作会越来越轻松,原因是系统长期迭代,除了资源以外其他的东西已经完全能适应双11的超高峰流量,以消息推送为例,作为一个日常的引流工具,我们每天都在双11,对于大促我们只是保障加成。而到了明年我们的多中心建成以后,将彻底和双11针对性准备说再见。

在质量保障方面,我们在预热期会对技术架构风险做最后Review(校验),并持续观察线上的系统表现和业务表现,解决遗留的问题。同时整理Review(校验)作战手册,包含当天人员分工,checklist,时间点,做到人责清晰,节奏清晰。并对产品预案、修复工具、验证数据进行反复确认、保障大促期间突发状况可以快速恢复和验证。

安卓绿色联盟: 据说每年的双十一之前,咱们的淘宝双十一团队都有突发演练,能介绍一下这项工作吗?

淘宝技术团队:我们内部叫全链路压测。其实就是模拟预估双11的流量,对所有的相关系统进行压测。测试在这种压力下,系统有没有问题。有问题就着手改进。因为不能在白天搞这种压测,所以一般同学们都是从凌晨开始一直压测到天亮,非常辛苦。

压测这一块,近年也在有一些变化,实际上我们的突发演练都是做在平时的,现在每个月都有些突发演练,我们早已习惯,这个已经不是双11的专利,而是日常保障的一部分。

我们还会利用字节码动态注入,利用隔离环境,模拟大促态下网络,中间件,机器、系统服务出现异常的情况下,系统服务能力能否快速进行恢复,容灾方案是否生效,对用户体验是否优雅。

安卓绿色联盟:在双十一这天,淘宝APP要面对超大的承载量和并发量,面对这个问题,在性能方面、响应速度上,如何满足数亿用户同时使用,从研发、测试角度看,你们做了哪些准备和应急保障工作?

淘宝技术团队:我们建立了一套完整的研发体系来支撑淘宝APP。分别包括“云管端”3个方面。“端”侧想了很多办法提高大家的开发效率以及开发质量。“管”上对网络连接做了大量的优化来提升大家的打开速度。“云”侧我们做了一个非常强大的网关。当然还有很多其他保障措施,来确保系统稳定。

我们的测试也是围绕整个产品研发生命周期,从研发期、上线期、运行期建设了一套完整质量保障能力体系。研发期有一套统一的稳定性达标标准,通过适配、性能、MONKEY,高清摄像体验性能自动化等测试能力,针对叠加场景性能回归,比如直播、互动、会场等多动效叠加。在上线期,通过故障、降级、限流、防刷演练保障产品的健壮性。运行期通过灰度、ABTEST发布机制、并对线上产品性能、CRASH,舆情等进行完整的监控和分析,保障健康的运行状态。

3、面对突发状况更需要冷静面对

安卓绿色联盟:有没有遇到过一些突发情况或者惊心动魄的瞬间呢?你们又是如何应对的?(从具体事件讲)

淘宝技术团队:因为双11的海量规模在那,所以我们遇到过的一些突发情况,在整个业界也可能是第一次出现的。不过经过这些年,大家都比较淡定了。如果有什么经验是一定要分享的,就是遇到问题之后一定要冷静,不要匆忙做决定。面对突发情况,具体情况还得具体分析。

记得有一年晚上22点,我们发现首页流量已经超出预期,需要做扩容发布,但是22点以后发布是几乎没有先例的,并且当时发布耗时还比较长。另一方面,通过数据观察肯定是有风险的,我们综合分析后还是决定发布,最后发布是在23:20分全部结束的,检查了一遍系统之后,就开始默默盯着屏幕上的监控数据一直到0点之后默不作声(很不像我平时的风格),最终看到平稳度过双11第一个流量高峰才长舒一口气。

当然,还有一个时间点是最为惊心动魄的,就是双11当天的零点,所有人都在盯着那个数字,在想今年又会创造一个什么样的新纪录,看着交易额不可思议的飙涨,会不由地惊叹和佩服消费者巨大的购买力,非常震撼。

安卓绿色联盟:在这么大的访问量背后,有没有百密一疏的时候?有没有经验总结能分享?

淘宝技术团队:百密一疏的情况,前几年会多一些,最近几年少了很多。

有一年有个紧急的降级CASE,服务问题后降级,结果降级降到了另外一个沟了,形成了死循环导致了业务损失。这个案例的教训在于,第一:所有的降级线路都要演练不能以为没事,结果降级降到沟里很容易发生;第二:降级要端到端配合对齐方案,这个CASE里就是两侧对于错误的理解不同导致了导向错误最终引发问题。

双11之后的复盘非常重要,有了前一年的经验,第二年就是在前期做好所有的准备,评估整个系统做好应对方案。

安卓绿色联盟:淘宝双十一团队面对超负荷工作任劳任怨的精神,经常被很多企业拿来当典型案例学习,对于你们来说,支撑力量来自于哪里?

白衣:干的有意义,干的有意思。

泽胤:哈哈,这个说起来非常简单,双11已经进入每个家庭,在中国几乎所有的家庭都参与到了双11中。我们只是不能丢自己的脸,不能让自己成为家人茶余饭后的笑话,顺带着也要为公司长脸,这就是最最原始的动力。

4、2017双十一布局多维度创新升级

安卓绿色联盟:相比往年,从技术上、活动上来看,今年有哪些不同之处?

淘宝技术团队:今年是新零售全面应用的一年,线上线下互动打通。时尚大脑、场景购、无人超市等新零售形态走进线下。为了支持更丰富的互动形式,无论是淘宝天猫的首页,还是双11的主会场,今年可以看到很多动态效果,声音特效等等,这对技术来说是非常大的挑战。群玩法也非常有意思,过去主要是商家通过群来聚集消费者,今年所有的用户都可以自建群,交流购物心得、组成战队来抢红包等等。基于淘宝数亿的用户基数,无论是自建群的数量还是同时的消息并发数,对系统来说都是很大的挑战。

从技术上来说,在客户端上手机淘宝和天猫客户端无线端进行了架构统一,服务端上今年大批量上云,进行了离在线混布的能力。智能化升级也运用在今年双11的方方面面,无论是在活动上面在货品招选投整个链路上,通过对行业运营经验和算法数据技术融合,给到消费者淘我想要,更加优质的货品。还是稳定性保障上在系统依赖识别,机器运维,在原有平台能力上引入数据能力,从自动化保障阶段到目前具备一定智能化能力,更有确定性。

另外,今年我们感受到 Android生态上的变化,以推送为例,以往我们只需要保障自己的系统,但今年华为等厂商也参与到我们双11的保障工作之中,一起保障好厂商通道的顺畅。除了常规的值班,我们在之前也通过一些演练确认降级厂商的方案和影响度,以便在紧急时刻提供足够的数据证据帮助我们做系统判断,最大程度服务好双11的引流工作。

品牌、内容合作请点这里: 寻求合作 ››

榜单

今日推荐