AWS 上的 Hugging Face

使用 Amazon SageMaker、AWS Trainium 和 AWS Inferentia 在几分钟内训练和部署 Hugging Face 模型

概览

借助 AWS 上的 Hugging Face,只需单击几下,即可通过 NVIDIA GPU 上的 Amazon SageMaker 以及专门构建的人工智能芯片 AWS TrainiumAWS Inferentia 访问、评估、自定义和部署数百个公开发布的基础模型(FM)。Hugging Face 模型中心中最常用的基础模型均支持这些易于使用的流,因此您可以针对特定使用案例,进一步优化模型性能,同时显著降低成本。 模型中心的“训练”和“部署”下拉菜单下的每个模型页面均提供 Sagemaker 的代码段。

在后台,这些体验在 Hugging Face AWS Deep Learning Containers(DLC)上构建,可提供完全托管体验,让您通过 Amazon SageMaker 构建、训练和部署最先进的基础模型。借助这些 DLC,您可省去软件包依赖关系,也无需针对目标硬件优化机器学习工作负载。例如,AWS 和 Hugging Face 合作开发了开源 Optimum Neuron 库,该库随专为 AWS 人工智能芯片构建的 DLC 打包提供,可以最小开销提供性价比优势。

优势

Hugging Face 提供各种经过预训练的基础模型,例如 Meta Llama 3、Mistral、Falcon 2 和 Starcoder,您只需点击几下即可通过 Amazon SageMaker JumpStart 在 AWS Trainium、AWS Inferentia 和 NVIDIA GPU 上安全地访问和部署这些基础模型。SageMaker 还允许您使用虚拟私有云(VPC)并在网络隔离中部署基础模型,从而增强安全性。
借助最丰富的加速 EC2 实例集获得高性能,并为 PyTorch、TensorFlow 和 JAX 等常见框架提供支持。与同类 EC2 实例相比,AWS Trainium 可以帮助您将训练成本降低多达 50%,而 AWS Inferentia2 可以将推理成本降低多达 40%。
使用 Amazon SageMaker,您可以使用高级技术自定义公开可用的模型,以提高特定任务的模型质量并支持大规模生产工作负载。您可以利用提示工程、检索增强生成(RAG)和微调等技术,包括参数高效微调(PEFT)、低秩适应(LoRA)、基于人类反馈的强化学习(RLHF)和有监督微调(SFT)。
在基础模型开发生命周期的每一个步骤都充分利用 Amazon SageMaker 的专用工具。借助 Amazon SageMaker,您可以评估、深度定制和部署性能、延迟、成本都经过优化的模型。您可以实时或异步部署基础模型,并使用多模型终端节点和其他高级部署技术来完全控制成本和性能。Hugging Face 文本生成推理(TGI)是用于部署和服务大型语言模型(LLM)的高级服务堆栈,其支持 NVIDIA GPU 以及 SageMaker 上的 Inferentia2,因此您可以进行优化,以实现更高的吞吐量和更低的延迟,同时降低成本。

使用案例

内容摘要

生成文章、博客文章和文档的简明摘要,以识别最重要的信息、突出显示关键要点并更快地提炼信息。Hugging Face 提供 Meta Llama 3 等用于内容摘要的各类模型。

聊天支持或虚拟助手

利用由生成式人工智能驱动的聊天支持和虚拟助手,自动化响应客户服务查询,从而简化客户自助服务流程并降低运营成本。Hugging Face 提供的模型可用于聊天支持或虚拟助手,包括经指令调整的 Meta Llama 3 和 Falcon 2 模型。

内容生成

创建个性化、引人入胜的高质量内容,例如短篇故事、散文、博客、社交媒体帖文、图片和网页文案。Hugging Face 提供 Mistral 等用于内容生成的模型。

代码生成

使用代码建议加快应用程序开发。Hugging Face 提供 StarCoder 等可用于代码生成的模型。了解有关人工智能代码生成的更多信息

文档向量化

通过使用嵌入模型对文档进行向量化,您可以解锁信息检索、问答、语义搜索、上下文推荐和文档集群等强大功能。这些应用程序增强了用户与信息交互的方式,让用户更轻松便捷地发现、探索和利用大型文档集合中的相关知识。

视频

使用 Amazon SageMaker 和 AWS Inferentia2 部署 Hugging Face 模型
SageMaker JumpStart:在几分钟内部署 Hugging Face 模型!
深度探索:AWS AI 加速器上的 Hugging Face 模型