为什么选择 Amazon EC2 Inf2 实例?
Amazon Elastic Compute Cloud(Amazon EC2)Inf2 实例专为深度学习(DL)推理而构建。它们在 Amazon EC2 中以最低的成本为生成式人工智能(AI)模型(包括大型语言模型(LLM)和视觉转换器)提供高性能。您可以使用 Inf2 实例来运行推理应用程序,以实现文本摘要、代码生成、视频和图像生成、语音识别、个性化、欺诈检测等等。
Inf2 实例由 AWS Inferentia2(第二代 AWS Inferentia 芯片)提供支持。Inf2 实例的性能较 Inf1 实例有所提升:计算性能提高了 3 倍,加速器总内存扩大了 4 倍,吞吐量提高了 4 倍,延迟降低到 1/10。Inf2 实例是 Amazon EC2 中的首个推理优化实例,可通过 Inferentia 芯片之间的超高速连接支持横向扩展分布式推理。您现在可以在 Inf2 实例上跨多个芯片经济高效地部署具有数千亿个参数的模型。
AWS Neuron SDK 可以帮助开发人员在两个 AWS Inferentia 芯片上部署模型,并且可以在 AWS Trainium 芯片上训练它们。它与 PyTorch 和 TensorFlow 等框架原生集成,让您可以继续使用现有的工作流程和应用程序代码,并且可以在 Inf2 实例上运行。
优势
功能
产品详细信息
实例大小 | Inferentia2 芯片 | 加速器 内存 (GB) |
vCPU | 内存 (GiB) |
本地 存储 |
芯片间 互连 |
网络 带宽 (Gbps) |
EBS 带宽 (Gbps) |
按需价格 | 1 年期限预留实例 | 3 年期限预留实例 |
inf2.xlarge | 1 | 32 | 4 | 16 | 仅限 EBS | 不适用 | 最高 15 | 最高 10 | 0.76 USD | 0.45 USD | 0.30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | 仅限 EBS | 不适用 | 最高 25 | 10 | 1.97 USD | 1.81 USD | 0.79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | 仅限 EBS | 是 | 50 | 30 | 6.49 USD | 3.89 USD | 2.60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | 仅限 EBS | 是 | 100 | 60 | 12.98 USD | 7.79 USD | 5.19 USD |
客户和合作伙伴评价
以下是客户和合作伙伴如何利用 Amazon EC2 Inf2 实例实现业务目标的一些示例。
-
Leonardo.ai
我们的 Leonardo 团队利用生成式人工智能,使创意专业人士和爱好者能够制作出具有无与伦比的质量、速度和风格一致性的视觉资产。AWS Inf2 的性价比 通过使用 AWS Inf2,我们能够在不牺牲性能的情况下将成本降低 80%,从根本上改变我们可以为客户提供的价值主张,从而以更实惠的价格实现我们最先进的功能。它还减轻了人们对辅助人工智能服务的成本和容量可用性的担忧,随着我们的发展和规模扩大,这些服务变得越来越重要。对于我们来说,这是一项关键的支持技术,我们将继续挑战生成式人工智能的极限,为我们的用户开启创造力和表达力的新时代。
Pete Werner,Leonardo.ai 人工智能主管 -
Runway
在 Runway,我们的 AI Magic Tools 套件使我们的用户能够以前所未有的方式生成和编辑内容。我们不断突破 AI 支持的内容创建的可能性,随着我们的 AI 模型变得越来越复杂,大规模运行这些模型的底层基础设施成本可能会变得昂贵。通过与由 AWS Inferentia 提供支持的 Amazon EC2 Inf2 实例合作,我们能够以比基于 GPU 的同类实例高出 2 倍的吞吐量来运行我们的一些模型。这种高性能、低成本的推理使我们能够引入更多功能,部署更复杂的模型,并最终为使用 Runway 的数百万创作者提供更好的体验。
Cristóbal Valenzuela,Runway 联合创始人兼首席执行官 -
Qualtrics
Qualtrics 设计和开发体验管理软件。
在 Qualtrics,我们的工作重点是构建技术,以缩小客户、员工、品牌和产品的体验差距。为实现这一目标,我们正在开发复杂的多任务、多模式 DL 模型以推出新功能,例如文本分类、序列标记、话语分析、关键短语提取、主题提取、集群和端到端对话理解。随着我们在更多应用中使用这些更复杂的模型,非结构化数据量不断增长,我们需要更高性能的推理优化优化解决方案(例如 Inf2 实例)来满足这些需求,为我们的客户提供最佳体验。我们对新的 Inf2 实例感到兴奋,因为它不仅可以让我们实现更高的吞吐量,同时显著降低延迟,而且还引入了分布式推理和增强的动态输入形状支持等功能,这将有助于进行扩展,从而在向更大、更复杂的大型模型发展时满足部署需求。
Aaron Colak,Qualtrics 核心机器学习主管 -
Finch Computing
Finch Computing 是一家自然语言技术公司,为政府、金融服务和数据集成商客户提供人工智能应用程序。
为了满足客户对实时自然语言处理的需求,我们开发了可扩展到大型生产工作负载的先进深度学习模型。我们必须提供低延迟事务处理并实现高吞吐量,以处理全球数据馈送。我们已经将许多生产工作负载迁移到 Inf1 实例,并且实现了与 GPU 相比 80% 的成本节约。现在,我们正在开发更大、更复杂的模型,以便从书面文本中获得更深刻、更有洞察力的意义。我们的许多客户需要实时访问这些洞察,Inf2 实例的性能将帮助我们提供比 Inf1 实例更低的延迟和更高的吞吐量。随着 Inf2 性能改进和新的 Inf2 功能,例如支持动态输入大小,我们正在改善我们的成本效率,提升实时客户体验,并帮助我们的客户从他们的数据中收集新的洞察。
Franz Weckesser,Finch Computing 首席架构师 -
Money Forward Inc.
Money Forward, Inc. 为企业和个人提供开放和公平的金融平台。作为该平台的一部分,Money Forward 集团旗下公司 HiTTO Inc. 提供 AI 聊天机器人服务,该服务会使用定制的自然语言处理 (NLP) 模型,满足其企业客户的多元化需求。
我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了 97%,同时还降低了成本。我们很高兴在 Amazon EC2 Inf2 实例的初步测试结果中看到性能进一步提升。使用相同的自定义 NLP 模型,AWS Inf2 能够将延迟进一步减少到 Inf1 的 1/10。随着我们转向更大的、数十亿个参数的模型,Inf2 让我们有信心继续为客户提供卓越的端到端用户体验。
Takuya Nakade,Money Forward, Inc. 首席技术官 -
Fileread
在 Fileread.ai,我们正致力于构建解决方案,让文档交互像提问一样简单,使用户能够从所有文档中找到他们想要的内容并更快地获得正确的信息。自从切换到新的 Inf2 EC2 实例以来,我们看到我们的 NLP 推理能力有了显著提升。单单成本节省就对我们产生了巨大的影响,使我们能够在不牺牲质量的情况下更有效地分配资源。我们将推理延迟减少了 33%,同时将吞吐量提高了 50%,提供令客户满意的周转速度。我们的团队对 Inf2 相较于早期 G5 实例的速度和性能提升感到震惊,很明显,这是未来部署 NLP 模型的方法
Daniel Hu,Fileread 首席执行官 -
Yaraku
在 Yaraku,我们的使命是建立基础设施,帮助人们跨越语言障碍进行沟通。任何人,从专业翻译人员到单语人士,都可以通过我们的旗舰产品 YarakuZen 自信地翻译和编辑文本和文档。为了支持这一过程,我们提供了一系列基于深度学习模型的复杂工具,涵盖翻译、双文本单词对齐、句子分割、语言建模等任务。通过使用 Inf1 实例,我们能够加快服务速度以满足不断增长的需求,同时与基于 GPU 的实例相比,推理成本降低了 50% 以上。我们目前正在着手开发下一代更大型的模型,这些模型将需要 Inf2 实例的增强功能,以便在满足需求的同时保持低延迟。有了 Inf2,我们将能够将模型纵向扩展 10 倍,同时保持相似的吞吐量,使我们能够为客户提供更高的质量水准。
Giovanni Giacomo,Yaraku NLP 负责人 -
Hugging Face
Hugging Face 的使命是普及优秀的机器学习技术,帮助世界各地的机器学习开发人员解决现实世界中的问题。实现这一目标的关键是确保最新、最好的模型在云端最好的机器学习芯片上尽可能快速、高效地运行。Inferentia2 有可能成为大规模部署生成式人工智能模型的新标准方式,我们对此感到非常兴奋。在 Inf1 中,我们看到与基于 GPU 的传统实例相比,成本降低了高达 70%,而在 Inf2 中,我们看到类似 BERT 的 Transformers 的延迟低至 Inferentia1 的 1/8。借助 Inferentia2,我们的社区将能够轻松地将这种性能扩展到 100B+ 参数规模的 LLM,也可以扩展到最新的扩散和计算机视觉模型。
-
PyTorch
PyTorch 加快了机器学习开发人员从研究原型设计到生产部署的过程。我们已经与 AWS 团队合作,为由 AWS Inferentia2 提供支持的新 Amazon EC2 Inf2 实例提供原生 PyTorch 支持。随着希望部署大型生成式人工智能模型的社区成员日益增多,我们很高兴与 AWS 团队合作,通过芯片之间的高速 NeuronLink 连接,优化 Inf2 实例上的分布式推理。借助 Inf2,使用 PyTorch 的开发人员现在可以轻松部署超大型 LLM 和视觉转换器模型。此外,Inf2 实例还为 PyTorch 开发人员带来了其他创新功能,包括高效的数据类型、动态形状、自定义运算符和经过硬件优化的随机舍入,使其非常适合 PyTorch 社区广泛采用。
-
Nextira
LLM 以及更广泛的企业级生成式人工智能应用程序面临的历史性挑战是与训练和运行高性能深度学习模型相关的成本。AWS Inferentia2 与 AWS Trainium 相结合,使我们的客户在需要高性能训练时无需在财务上作出妥协。现在,寻求训练和推理优势的客户可以用更少的资金取得更好的成效。Trainium 和 Inferentia 加速了规模扩展,甚至可以满足当今最大型企业最严苛的深度学习要求。许多运行大型 AI 工作负载的 Nextira 客户将直接受益于这些新芯片组,加快实现成本节约和性能提升,从而更快在市场上取得成效。
Jason Cutrer,Nextira 创始人兼首席执行官 -
Amazon CodeWhisperer
Amazon CodeWhisperer 是一款人工智能编码伴侣,可在您的集成式开发环境(IDE)中生成实时单行或全功能代码建议,以帮助您快速构建软件。
我们借助 CodeWhisperer,通过使用生成式人工智能模型提供代码推荐来提高软件开发人员的生产力。为了开发高效的代码推荐,我们将深度学习网络扩展到了数十亿个参数。我们的客户需要在键入内容时获得实时代码推荐,因此低延迟响应至关重要。大型生成式 AI 模型需要高性能计算来实现几分之一秒的响应速度。使用 Inf2 的延迟与在针对大型输入和输出序列训练优化的 GPU 实例上运行 CodeWhisperer 的延迟相同。因此,Inf2 实例可以帮助我们节省成本和功耗,同时为开发人员提供最佳体验。
Doug Seven,Amazon CodeWhisperer 总经理 -
Amazon Search
Amazon 的产品搜索引擎为数十亿种产品编制了索引,每天处理数十亿次客户查询,是世界上使用最频繁的服务之一。
我对 Inf2 正式发布感到非常兴奋。Inf2 的卓越性能,加上处理具有数十亿参数的大型模型的能力,使其成为我们服务的理想选择,并使我们能够在模型复杂性和准确性方面解锁新的可能性。Inf2 可实现显著的加速和成本效益,将它们集成到 Amazon Search 服务基础设施可以帮助我们满足客户不断增长的需求。我们计划使用使用 Inf2 的生成式 LLM 来为我们的新购物体验提供动力。
Trishul Chilimbi,Amazon Search 副总裁