客户案例/软件互联网/土耳其

2023 年
Codeway 徽标

Codeway 使用 Amazon EC2 G5 实例为生成式人工智能节省了 48% 的计算成本

了解 Codeway 如何使用基于 NVIDIA GPU 的 Amazon EC2 G5 实例为其生成式人工智能应用程序 Wonder 优化性价比。

减少 48%

计算成本

每月活跃用户 150 万

遍及 160 多个国家/地区

少于三个半月

在 AWS 上部署

简化

运营管理

优化

性能

概览

Codeway 在 160 多个国家拥有超过 1.4 亿用户,通过生成式人工智能的力量对移动应用程序和游戏世界产生了重大影响。随着用户群的增长,Codeway 试图提高支撑这项强大技术的工作负载的可扩展性、弹性和成本效率。

在收到 Amazon Web Services (AWS) 的推荐后,Codeway 选择采用由 NVIDIA A10G Tensor Core GPU 提供支持的Amazon Elastic Compute Cloud (Amazon EC2) G5 实例(用于机器学习和图形密集型应用程序的基于 GPU 的高性能实例)来支持其图像生成应用程序 Wonder。通过优化 Wonder 在 AWS 上的基础设施,Codeway 保持了优化性能,与之前的计算策略相比降低了成本,并进行了有效的扩展,帮助数百万内容创作者将他们的想法变为现实。

Woman working on mobile phone in the station

机会 | 扩展生成式人工智能的计算规模,同时降低 Codeway 的成本

Codeway 总部位于土耳其伊斯坦布尔,开发由尖端技术(尤其是生成式人工智能)提供支持的移动应用程序和游戏。其 Wonder 应用程序将文字转换为数字图像;用户输入单词或句子,Wonder 通过在 AWS 上部署稳定的扩散模型来生成基于 PyTorch 的图像,将这些输入转换为作品。然后,根据订阅情况,用户可以下载高质量或低质量图像。

由于已有超过 2830 万用户下载 Wonder,因此 Codeway 致力于最大限度提高其计算和 GPU 能力。Wonder 的基础设施分布在多个地区的各种云提供商中。对于人工智能 (AI) 推理工作负载,Codeway 使用的是托管在其中一家提供商上的 NVIDIA A100 Tensor Core GPU。但是,会出现影响性能的 GPU 容量问题。

“这些工作负载需要非常占用 GPU 的硬件。我们每月会增加数百万用户,因此我们对 GPU 的需求只会越来越高。” Codeway 首席开发运营工程师 Ugur Arpaci 说。“在我们从管理数百个 GPU 过渡到数千个 GPU 时,我们希望优化成本和性能,并找到良好的可扩展性策略。”

Amazon EC2 提供广泛而深入的计算产品组合,包括 600 多个实例,并可选择最新的处理器、存储、网络、操作系统和购买模式选项,帮助客户最好地满足其工作负载需求。在 Codeway 寻找优化计算的方法时,它发现了一个理想的解决方案:由 NVIDIA A10G Tensor Core GPU 提供支持的 Amazon EC2 G5 实例。尽管 Codeway 可以选择与其他云提供商类似的 GPU,但它们无法提供与 AWS 相同的可用性和可扩展性。

Arpaci 说:“AWS 团队建议,我们可以通过采用由 NVIDIA A10G Tensor Core GPU 提供支持的 Amazon EC2 G5 实例来实现我们的性价比目标。”“我们开始对此进行测试,我们看到了不错的结果。”

kr_quotemark

在 AWS 上,我们可以对工作负载进行分段,为我们的用户提供更好的性能。”

Ugur Arpaci
Codeway 首席开发运营工程师

解决方案 | 在 3.5 个月内在 AWS 上为 Wonder 运行基于 PyTorch 的稳定扩散模型

在分析了 Amazon EC2 G5 实例的价格表现后,Codeway 与 AWS 团队密切合作,完成了上线流程。Arpaci 说:“我们一直在与 AWS 的专家保持联系。”“我们遵循了他们的指导,然后进行了测试并计算了成本。对于某些模型,我们意识到通过在 Amazon EC2 G5 实例上部署我们的应用程序可以获得最大的好处。然后,我们分享了结果,建立了非常积极的反馈回路。”

上线过程快速而流畅,在 3.5 个月内,Codeway 在 AWS 上为 Wonder 运行了生产工作负载。现在,使用带 A10G GPU 的 Amazon EC2 G5 实例来部署免费版 Wonder 的几乎所有人工智能推理工作负载。为了为付费用户生成全高清晰度图像,Codeway 使用了更强大的 A100 GPU,可在更短的时间内生成更高质量的内容。通过使用 A10G 和 A100,公司可以满足其所有产出时间服务级别协议要求。

Arpaci 说:“我们知道 A10G 的性能不如 A100 那么强大,但是有些工作负载不需要那么高的 GPU 性能。”“现在,我们可以从更强大的 GPU 中卸载大量此类工作负载,这些 GPU 现在只用于处理高级用户功能,例如高质量图像生成。”

为了进一步提高成本效率和性能,Codeway 采用了 Amazon Elastic Kubernetes Service (Amazon EKS)(一种在 AWS Cloud 和本地数据中心运行 Kubernetes 的托管服务)上的集群,根据需要动态调整 Amazon EC2 G5 实例。已在每个 Amazon EKS 集群上部署了自定义的自动扩展解决方案,该集群会在需求出现时智能地请求更多实例。

为了管理实例,Codeway 依赖于开源节点配置解决方案 Karpenter。该服务根据 Codeway 的需求有效地确定和使用适当的实例类型。Arpaci 说:“Karpenter 实际上为我们选择了所需数量的实例并进行部署,然后我们在此基础上部署所需的工作负载。”“整个过程是自动化的,从运营角度来看,简化了很多因素。”

架构图

成果 | 将计算成本降低 48% 以有效扩展生成式人工智能

采用 Amazon EC2 G5 实例中的 A10G GPU 在 Codeway 向更具成本效益、更强大和可扩展的架构迈进中发挥了重要作用。该公司可以有效地进行扩展,满足使用量的激增和下降,从而响应全球用户的需求。现在,数以百万计的 Wonder 用户享受应用程序和游戏的增强体验。

Arpaci 说:“借助由 NVIDIA A10G Tensor Core GPU 提供支持的 Amazon EC2 G5实例,我们可以处理很大一部分人工智能推理工作负载。”“通过在 AWS 上使用 A10G GPU 加速器,我们可以对工作负载进行分段,为我们的用户提供更好的性能。”

在 AWS 上,Codeway 以优化的成本保持高性能和可用性。通过合理配置 Amazon EC2 G5 实例并利用 Amazon EC2 竞价型实例(与按需价格相比,运行容错工作负载的折扣高达 90%),与在 A100 GPU 上运行所有工作负载相比,公司将计算成本降低了 48%。Wonder 的免费版本旨在将用户转化为付费订阅用户;通过降低免费产品的计算成本,Codeway 可以以相同的价格获得更多订阅用户。

展望未来,Codeway 将使用 AWS 服务保持处于生成式人工智能的最前沿。它计划在未来深化与 AWS 的合作,并采用新服务为其基础设施的其他组件提供支持。例如,Codeway 正在评估多项 AWS 服务,例如 AWS Batch(促进批处理、机器学习模型训练和大规模分析的服务),标准化其人工智能训练工作负载。

在 AWS 上,Codeway 在成功将生成式人工智能产品化方面取得了长足的进步。得益于这一变革,适应性强的弹性人工智能框架已准备好支持其不断增长的用户群。

关于 Codeway

Codeway 总部位于土耳其伊斯坦布尔,推出由生成式人工智能和其他尖端技术支持的移动应用程序。自 2020 年以来,已有超过 160 个国家的 1.4 亿用户下载了其应用程序。

使用的 AWS 服务

Amazon EC2

Amazon Elastic Compute Cloud(Amazon EC2)提供最广泛、最深入的计算平台,拥有超过 700 个实例,可选择最新的处理器、存储、网络、操作系统和购买模型,以帮助您最好地满足工作负载的需求。

了解更多 »

Amazon EC2 G5 实例

Amazon EC2 G5 实例是基于 NVIDIA GPU 的最新一代实例,可用于各种图形密集型和机器学习使用案例。

了解更多 »

Amazon EKS

Amazon Elastic Kubernetes Service(Amazon EKS)是一项托管 Kubernetes 服务,用于在 AWS Cloud 和本地数据中心上运行 Kubernetes。

了解更多 »

AWS Batch

AWS Batch 让开发人员、科学家和工程师能够高效运行数十万个批处理和机器学习计算作业,同时优化计算资源,这样您就可以专注于分析结果和解决问题。

了解更多 »

更多生成式人工智能客户案例

未找到任何项目 

1

行动起来

无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。