蟒蚂蚁

首页 » 常识 » 诊断 » 蚂蚁技术风险极致稳定的面子,技术创新
TUhjnbcbe - 2024/6/4 18:15:00
北京看白癜风的医院哪家有名 https://jbk.familydoctor.com.cn/bjbdfyy_ks/

在蚂蚁技术体系中,活跃着一支特别的队伍,他们专搞“破坏”,被称之为“技术蓝军”,蓝军的任务就是不断地攻击系统,而防守方则被称为“技术红军”。

给红军团队不停的制造“麻烦”已成为技术蓝军的“常态”,据说这样的技术攻防演练每周都在进行,除了每年5月底的“期中考试”周,12月第三个星期为年度技术“期末考试”周,“技术蓝军”随时也会组织突袭攻击“测验”,通过实战中发掘出来的脆弱点来牵引红军进行能力升级。

蚂蚁集团技术风险部负责人陈亮

这是9月25日“Inclusion·外滩大会”技术风险分论坛上,蚂蚁集团技术风险部负责人陈亮分享的真实故事。在他看来,“技术驱动+攻防演练,始终是促进蚂蚁技术风险能力自主持续增长的最重要方式。”

确实如此,对于蚂蚁这种每秒能够处理百亿、千亿级资金的平台来说,技术风险的管控是生死攸关的大事,更何况是金融级的,且是基于互联网开展的,这对技术风险提出了兼具稳定和快速的更高要求,它的难度远超其他单纯的互联网或者金融机构。

也正是为了应对这种独特的挑战,蚂蚁在国内率先组建了第一支SRE团队,这支团队不仅锤炼出了技术风险防控平台TRaaS(TechnologicalRisk-defenseasaService)这样的解决方案,更探索出了与众不同的基于技术风险管理的一整套体系和文化,真正为蚂蚁集团支撑起了一条无形的、牢不可破的技术防线。

宝剑锋从磨砺出背后

对于蚂蚁集团资深技术专家李铮来说,SRE团队组建前后的经历直到今天仍然让他“记忆犹新”。

他说:“技术风险之于蚂蚁而言非常重要,互联网业务要求快速,而金融业务又十分强调稳定,但我们则要求又快又稳,这种挑战如果还是沿用过去常规的、传统的方式来应对,肯定是没有办法实现的,这就必须把技术沉淀到风险管理中,去保障蚂蚁业务和应用的稳妥创新。”

毫无疑问,系统的业务连续性保障和资损风险监控,始终是每一位蚂蚁技术人员的工作中的“重中之重”,如同每一笔交易支付中要始终确保安全一样,技术风险的管控也要确保系统和应用不能够出现任何的故障和风险,这种保障压力尤其在每年的“双11”和“双12”中就显得更加的突出。

在这样的背景之下,年,蚂蚁技术团队开始沉淀故障检测等方面的平台化能力;年,技术质量部正式成立,并在次年升级为技术风险部,专注应对技术风险问题,从全域视角落地相应的解决方案;年,蚂蚁技术风险部再度升级为SRE团队,该团队主要由研发、运维和测试人员组成,这个概念最早由国外提出,在蚂蚁内部则被进一步诠释为“SiteRiskEngineer”。

李铮认为,之所以有如此之高的要求,是因为蚂蚁有金融级业务的属性,每一笔支付背后都对应着上百个系统,背后的技术风险管理难度可想而知。因此,解决技术风险的挑战,本质上还是要回归到技术创新这条道路上来,即需要用软件或者说代码的方式化解这些难题,同时还要把这些技术能力抽象和沉淀出来,以平台化的方式更好地管理风险。

以“变更”为例,它指的是代码上线到实际生产环境的过程,这就要求SRE团队需要围绕变更建立各种技术手段,减少变更导致的故障,并研发变更相应的平台,为此,该团队建立了一系列制度保证系统内的任何变更都符合可监控、可灰度、可回滚的“三板斧”要求,并且构建了一套变更防御的微服务让“三板斧”能力系统化实时检测,变更风险秒级拦截。

其实,类似“变更”这样的操作,只是蚂蚁SRE团队日常技术风险创新工作中的“缩影”,也正是得益于这样对日常技术风险工作的长期的沉淀和积累,蚂蚁打造出了技术风险防控平台TRaaS,该架构被称之为“免疫系统”,具备三大特性,包括高达99.%的高可用性;万亿级资金秒级实时核对;5分钟发现,5分钟自愈的免疫能力。

这种强大的技术创新能力,正是蚂蚁集团在金融科技领域所独有的“杀手锏”。更为关键的是,这也让蚂蚁的SRE团队不仅仅是一个工种、一个岗位,更是一种能力,它的价值不仅能增强团队的整体风险意识,更成为了蚂蚁技术创新体系中的“新引擎”。

可以看到,今天身处蚂蚁SRE团队,不仅要负责全面业务风险分析、线上风险应急处置、业务变更防线研发、资金安全防线研发等工作,更担负着智能监控应急、纵深变更防御、全局容量调度,以及还需要解决世界级的分布式系统处理难题,识别和解决潜在的技术风险等,这也就催生了文章开头中所提到的红蓝攻防演练机制等等。

对此,李铮表示:“今天蚂蚁构建起来的这种稳妥创新的技术风险管理体系,背后既有技术创新的支撑,也有团队组织的保障,更有将技术风险融入日常研发、融入技术平台的文化,三者缺一不可。”

我们常说,宝剑锋从磨砺出——经历过极限洗礼和考验的蚂蚁SRE团队,可以说真正打造出了自身不断创新、并随技术风险演变而不断进化的基因,这是其能够支撑蚂蚁在金融级的业务场景中实现“稳妥创新”关键价值所在。

为技术转型“保驾护航”

事实上,这种“稳妥创新”机制今天已经贯穿到蚂蚁的技术风险体系之中。以云原生架构转型为例,今天蚂蚁大量的业务也开始大量转向更具可靠性和扩展性、更加易于维护的云原生应用。

但在此过程中,随着云原生应用、容器、微服务以及DevOps开发流程的倍速发展,越来越多的应用基于云原生构建,并与核心系统深度集成,由此也带来了前所未有的挑战。

这些挑战包括:产品需求变更频繁、软件开发速度也越来越快,这个过程中带来风险的可能性和频率也越来越高;基础架构的迁移要求系统进行全面的测试,带来了巨大的测试工作量;原有的技术风险基础设施和中台部分系统不适应云原生架构,需要重新研发等等。

蚂蚁集团资深技术专家李铮

李铮形容说:“技术架构的云原生化,这种转变意味着蚂蚁的技术体系需要做大量的变革,可以比喻成“为高速飞行中的飞机换引擎”,那么作为守门员的技术风险团队,不仅仅只是做一名守护者,同时也要对技术创新的成败负责,这就要求SRE团队发挥更加重要的协同创新作用。”

首先,作为技术风险的“守护者”,SRE团队的工作就是要把好“上线关”。此前,蚂蚁就开始尝试使用安全容器,但在正式上线之前,SRE团队就必须对安全容器进行灰度验证,并且要反复的进行压测。比如系统的性能,加上安全容器之后系统的性能也需要要有稳定、持续的保证,如果性能指标下降超过某个规定的“阈值”,那么SRE团队只能要求技术研发人员把容器安全应用重新回炉“再造”。

“我们在这个过程中,就会投入比较大的精力去做前期的评估和验证,以确保云原生应用中的每个技术组件到底有没有问题,到底跟当前的业务系统运行是不是契合,性能是不是能够得以保证,这些都是十分关键的点,也是非常重要的工作。”李铮表示。

其次,SRE团队也要发挥协同创新的能力,包括进行容器应用的前瞻性判断,也要基于现有的技术风险体系做出决策和分析,最终保证云原生应用的高效落地。

以ServiceMesh应用为例,我们知道业务容器内独立进程的好处在于与传统的部署模式兼容,易于快速上线;但独立进程强侵入业务容器,对于镜像化的容器更难于管理,而云原生化,则可以将ServiceMesh本身的运维与业务容器解耦开来,实现中间件运维能力的下沉,但要让ServiceMesh大规模的落地,就必须做好充分的技术风险管理和保障工作。

李铮认为,“要完成这项工作,除了为ServiceMesh落地配备专属的SRE团队,还要基于成本、运维效率、稳定性做全面的评估和保障,构建一套支撑ServiceMesh大规模无人值守变更和秒级故障定位和应急处置的稳定性服务,最终让ServiceMesh的落地更加高效和可靠。”

最后,SRE团队更要积极主动的释放自身的技术创新红利。从某种程度上来说,蚂蚁在走向云原生架构的转型时,其技术风险能力也在经历着云原生化的“升级”。

如今,蚂蚁基于云原生技术稳定性实践方面也积累了很多的经验。例如,从不可变基础设施到极速恢复能力的构建;通过统一变更的标准接入,强制系统化“三把斧”,构建了无人值守的变更防御体系;此外,通过云原生统一调度+变更防御+数据算法驱动,蚂蚁SRE团队实现了全局大规模容量可靠托管,大幅减少了运维成本等等。

由此可见,蚂蚁SRE团队技术风险能力云原生化的“升级”,不仅保证了其业务创新的高效可落地,同时也把国内的技术风险能力再次提升到了一个全新的高度。

创新筑基与智赋未来

正所谓高度决定视野,视野决定格局。李铮认为,技术风险在各业务领域中不是横向的,而是“自上而下的贯穿”:从最底层的云原生到最上层的具体业务场景,无处不在,一以贯之。因此,面向未来,蚂蚁的SRE团队的工作也将在两个方向展开:

一方面,就是针对下一代技术风险体系持续做好技术创新,其重点包括三个方面:在智能化方面,SRE团队重点

1
查看完整版本: 蚂蚁技术风险极致稳定的面子,技术创新