公司 蚂蚁金服 地点 中国杭州 行业 金融服务

挑战

蚂蚁金服于 2014 年 10 月正式成立,其前身是于 2004 年推出的全球最大的在线支付平台支付宝。该公司还提供许多其他利用技术创新实现的服务。支付宝通过其本地和全球合作伙伴为全球 9 亿多用户处理大量交易——在 2017 年双 11 购物节高峰期达到每秒 256,000 笔交易,2018 年双 11 购物节的总商品交易额达 310 亿美元,更不用说其提供的其他服务。蚂蚁金服面临着“全新的数据处理挑战”,负责存储和计算产品管理的郝杰杭表示。“我们看到在这种规模下运营存在三个主要问题:如何提供实时计算、存储和处理能力,例如为欺诈检测提供实时建议;如何在此数据之上提供智能,因为数据太多,我们无法获得足够的洞察;以及如何在应用层、中间件层、系统层甚至芯片层应用安全性。”为了向客户提供可靠和一致的服务,蚂蚁金服在 2014 年初开始采用容器,并很快需要在其数据中心为数万个节点集群提供编排解决方案。

解决方案

在研究了几种技术之后,该团队选择了 Kubernetes 进行编排,以及许多其他 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。“在 2016 年底,我们决定 Kubernetes 将成为事实上的标准,” 杭说。“回首往事,我们对正确的技术做出了正确的押注。但是,我们需要将生产工作负载从旧的基础架构迁移到最新的支持 Kubernetes 的平台,这需要一些时间,因为我们在可靠性和一致性方面非常谨慎。”所有核心金融系统在 2017 年 11 月之前都已容器化,并且正在进行向 Kubernetes 的迁移。

影响

杭说:“我们在云原生技术的运营方面至少看到了十倍的改进,这意味着你的产出可以增加十倍。”蚂蚁还将其完全集成的金融云平台提供给世界各地的业务合作伙伴,并希望凭借在服务创新和技术专业知识方面的丰富经验,为下一代数字银行提供动力。杭说,该团队也尚未开始专注于优化 Kubernetes 平台:“因为我们仍处于高速增长阶段,我们尚未进入节省成本的模式。”

蚂蚁金服是跨国集团阿里巴巴的衍生公司,拥有 1500 多亿美元的估值以及与之匹配的规模。这家金融科技初创公司于 2014 年成立,由全球最大的在线支付平台支付宝以及许多其他利用技术创新实现的服务组成。

支付宝通过其本地和全球合作伙伴为全球 9 亿多用户处理的交易量惊人:在 2017 年双 11 购物节高峰期达到每秒 256,000 笔交易,2018 年双 11 购物节的总商品交易额达 310 亿美元。秉承着“为世界带来平等机会”的使命,蚂蚁金服致力于通过技术创新创建开放共享的信用体系和金融服务平台。

再加上其其他业务(例如花呗在线信用系统、借呗贷款服务以及拥有 3.5 亿用户的 蚂蚁森林绿色能源移动应用)的运营,蚂蚁金服面临着“全新的数据处理挑战”,负责存储和计算产品管理的郝杰杭表示。“我们看到在这种规模下运营存在三个主要问题:如何提供实时计算、存储和处理能力,例如为欺诈检测提供实时建议;如何在此数据之上提供智能,因为数据太多,我们无法获得足够的洞察;以及如何在应用层、中间件层、系统层甚至芯片层应用安全性。”

为了应对这些挑战并为客户提供可靠且一致的服务,蚂蚁金服在 2014 年开始采用 Docker 容器化。但是,他们很快意识到,他们需要在公司的数据中心为其数万个节点集群提供编排解决方案。

该团队研究了几种技术,包括 Docker Swarm 和 Mesos。杭说:“我们做了很多 POC,但是我们在生产系统方面非常谨慎,因为我们希望确保不会丢失任何数据。”“你不能容忍服务停机一分钟;即使一秒钟也会产生非常非常大的影响。我们每天都在压力下运营,为中国和全球的消费者和企业提供可靠且一致的服务。”

最终,杭说蚂蚁选择 Kubernetes 是因为它满足了所有条件:强大的社区,一项“在未来三到五年内都将具有相关性”的技术,以及与公司的工程人才的良好匹配。“在 2016 年底,我们决定 Kubernetes 将成为事实上的标准,” 杭说。“回首往事,我们对正确的技术做出了正确的押注。但是,我们需要将生产工作负载从旧的基础架构迁移到最新的支持 Kubernetes 的平台。我们花了很多时间学习,然后培训我们的员工,以便在 Kubernetes 上构建良好的应用程序。”

所有核心金融系统在 2017 年 11 月之前都已容器化,并且正在进行向 Kubernetes 的迁移。蚂蚁的平台还利用了许多其他 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。“今年双 11,我们在 Kubernetes 上有很多节点,但与我们整个基础设施的规模相比,这仍然在进行中,”全球技术合作与发展部的游侠说。

尽管如此,已经产生了影响。“云原生技术在效率方面使我们受益匪浅,” 杭说。“总的来说,我们希望确保我们的基础设施足够灵活,可以满足未来可能发生的工作。这就是目标。借助云原生技术,我们在运营方面至少看到了十倍的改进,这意味着你的产出可以增加十倍。假设你用一个人操作 10 个节点。借助云原生,明天你可以拥有 100 个节点。”

蚂蚁还将其金融云平台提供给世界各地的合作伙伴,并希望凭借在服务创新和技术专业知识方面的丰富经验,为下一代数字银行提供动力。杭说,该团队也尚未开始专注于优化 Kubernetes 平台:“因为我们仍处于高速增长阶段,我们尚未进入节省成本的模式。”

在蚂蚁金服向云原生迁移的过程中,CNCF 社区也发挥了宝贵的作用。“如果你正在应用一项新技术,那么与其它用户讨论技术问题是非常好的,” 杭说。“我们非常感谢 CNCF 和这项惊人的技术,随着我们在全球范围内的持续扩展,我们需要这项技术。我们将来肯定会更多地拥抱社区和开源。”

实际上,该公司已经开始开源其一些 云原生中间件。“我们将在这方面非常积极,” 游侠说。“CNCF 提供了一个平台,因此每个人都可以插入或贡献组件。这是非常好的开源治理。”

展望未来,蚂蚁团队将继续评估许多其他 CNCF 项目。该团队正在中国建立一个服务网格社区,汇集了许多中国公司和开发人员,以讨论该技术的潜力。“服务网格对中国开发人员和最终用户非常有吸引力,因为我们现在有很多旧系统在运行,它是一个理想的中间层,可以将所有新旧系统粘合在一起,” 杭说。“对于新技术,我们会仔细观察它们是否能够持续下去。”

在蚂蚁,Kubernetes 以优异的成绩通过了该测试,该团队希望其他公司也能效仿。“在中国,我们在金融和其它相关服务的创新方面是北极星,”杭说。“我们绝对要确保在未来 5 到 10 年内,通过对技术的投资,我们仍然处于领先地位。”