亚马逊AWS官方博客

企业智能之旅(5):人工智能基础模型的选择与评估

在数字经济时代,大数据和人工智能一体的数智技术成为企业转型和创新的战略制高点,数据、算力、算法的发展驱动了生成式 AI 基础模型的快速演进,带动了人工智能的迅猛发展。企业领导、业务和技术高管需要熟悉了解如何选择、培训、精调、评估、改进生成式 AI 基础模型,按需对其进行定制化,将其构建部署到企业应用中,以帮助企业获取差异化竞争力和创造业务价值。对于模型选择有关的知识和实践,我们做以下概括介绍,供您参考。

1. 人工智能模型简述

人工智能模型包含用于执行各种任务的广泛算法和架构,从自然语言处理(NLP)到图像识别等等。这些模型根据其特点常常被冠以互不独立的种类标签。

  • 传统模型:指较小的、针对特定问题从头开始训练、执行特定任务的模型(如线性回归、决策树、KNN 等)。
  • 神经网络模型:受人脑启发的模仿互连神经元组建的模型(如 CNN、RNN、LSTM 等)。
  • 生成式模型:旨在生成类似于训练数据的新的数据内容(如 GAN,VAE 等)。
  • 强化学习模型:通过反复试验学习最佳动作,并根据其动作获得奖励或惩罚而建立的模型(如 QLearning、DQN、策略梯度方法等)。
  • 基础模型(Foundation Model,FM):通常基于转换器架构通过从大型数据集学习,无需进行针对特定任务的训练,获得能力以生成新文本、图像、视频、代码、音乐等内容,如 GPT、BERT、CLIP、DALL-E、Amazon Titan 等。这些模型是根据各种广泛的数据使用自监督或无监督方法进行预训练的,并通常针对特定领域和任务进行了微调。
  • 大语言模型(LLM):基础模型的一个子类别,旨在理解和生成人类语言,通过以上下文相关的方式处理单词之间的关系来实现高效的语言处理。

2. 购买还是开发模型?

对于寻求利用人工智能的企业来说,购买或开发模型是一个至关重要的、各有利弊的决择。购买或开发模型的决定取决于众多因素,包括企业的规模、预算、专业知识、特定需求和长期战略。

企业内部开发模型可以更好满足特定行业的业务需求,优化独特应用程序的性能,并根据业务需求和技术进步的变化进行持续的更新和改进。开发模型有助于企业在内部构建人工智能能力并促进员工的技能发展。企业可以保持对模型的完全控制,包括数据隐私、安全和知识产权。但开发人工智能模型需要大量时间、财务投资和专业知识,开发过程可能会很漫长,并存在无法按预期投产运行等风险。

企业购买模型可以快速获取比较成熟的、安全可靠的模型进行快速部署,通常比从头开发模型更具成本和时间效益。组织可以专注于自己的核心业务能力,而无需将过多的资源转移到人工智能开发上。但现成的模型可能无法完全满足特定的业务需求或用例,后期还要依赖外部提供商进行更新和维护,与第三方供应商共享敏感数据还可能会引发隐私和安全问题。

建立基础模型是一项繁重艰巨的工作,需要很强的技术资源和资金投入。现阶段除了从事人工智能技术的专业公司和少数实力雄厚的大中型企业,大多数中小企业来可以选择购买商业或选择开源的基础模型,并在此基础上用自己的数据进行预训练,以得到最适合自己的的基础模型。选定了模型之后,企业可以利用提示词工程、提取增强生成、模型微调和持续模型训练等方法,对模型进行进一步的适配和调优。对于许多企业长期来说,混合方法也是可行的——从选择预先构建的模型开始,随着内部能力的增长和技术的成熟,逐渐过渡到购买模型和定制开发的结合。

3. 人工智能机器学习模型的参数

人工智能模型在算法、结构、目的和应用方面差异很大。从擅长处理简单任务的传统模型,到能够处理复杂数据和综合任务的高级神经网络基础模型,每种类型都有其独特的优缺点。模型的选择取决于具体的场景用例、数据可用性和性能成本。在评估人工智能基础模型时,应仔细考虑下述这些重要方面,以确保模型符合您的特定需求和目标。

狭义上常用的人工智能模型大小的主要评估参数如下:

  • 模型参数数量:模型中参数权重的总数。
  • 模型内存占用: 存储模型参数和架构所需的内存总量。
  • 输入令牌长度:模型一次可以处理的最大标记数。
  • 训练数据大小:用于预训练模型的数据量。
  • 层数和宽度: 模型的层数和每层的宽度。
  • 批量大小:训练期间同时处理的样本数量。

这些参数显著影响模型的性能、资源需求和部署可行性。较大的模型通常会捕获更多的复杂性提供更好的准确性,但也需要更多的资源来进行训练和推理。

除了上述模型尺寸相关的技术参数,下面这些广义的模型参数对于评估人工智能基础模型同样至关重要。通过综合考虑各个方面,您可以做出符合您的目标和资源限制的明智决策。

  • 模型架构:了解模型是否基于 Transformer、卷积网络或其他架构,用于检查架构的层数和复杂性对性能可能的影响。
  • 预训练数据:用于检查预训练所用数据的种类和数量,这会影响模型的泛化能力,以确保预训练数据与您的特定用例保持一致。
  • 性能指标:查看与您的应用程序相关的基准数据集的性能。F1 分数、精度、召回率等指标可提供对模型性能的深入了解。
  • 微调能力:评估使模型适应特定任务或数据集的方便程度,可确定模型在应用于新任务时是否有效保留已有的知识。
  • 推理速度:测量模型处理输入和生成输出所需的时间,这对于实时应用程序至关重要,可以评估模型是否可以同时处理多少个请求。
  • 资源要求:考虑训练和运行模型的硬件要求(例如 GPU、TPU),可帮助了解与部署相关的任何许可费用和运营成本。
  • 可扩展性:评估模型随着数据或用户需求的增加而扩展的能力,可检查模型是否能够有效处理多个任务。
  • 坚固性和可靠性:评估模型在噪声或不完整数据条件下的表现,可分析模型产生错误输出或错误分类的倾向。
  • 模型偏差:调查模型输出中的任何已知偏差以及这些偏差如何影响您的应用。
  • 透明度:考虑模型决策的可解释性,这对于建立信任和问责制至关重要。

4. 选择人工智能机器学习模型的方法

选择人工智能基础模型需要综合考虑上述因素和参数,建议选择过程采用下述结构化方法步骤:

  • 定义清晰的目标:根据选责的应用场景,清楚地确定您想要实现的目标(例如文本生成、情感分析、图像识别)。
  • 评估模型类型:选择模型适用于您涉及的任务(例如文本、图像等),并满足您的多模态需求。
  • 了解模型能力:确保模型是针对您的预期任务(NLP、视觉、多模态等)而设计,并针对与您的领域相符的相关数据进行了预训练。
  • 考虑定制和微调:评估针对特定任务或数据集微调模型的难易程度,寻找允许修改以满足您独特需求的型号。
  • 分析资源需求:评估训练和部署模型的硬件和软件要求。
  • 查看文档和支持:确保提供全面的文档以促进实施和故障排除,寻找可以帮助解决问题的活跃社区或供应商的支持。
  • 评估道德和法律因素:调查模型的训练方式和已知偏差可能如何影响您的应用程序,以确保使用模型符合相关数据保护法规,让您可以负责任地处理敏感数据。
  • 进行试点测试:使用模型创建原型以评估其在现实场景中的性能,收集用户和利益相关者的反馈,在全面部署之前完善您的方法。
  • 跟进最新进展:密切关注基础模型的更新和改进,了解可能更好地满足您未来需求的新模型或架构,了解与使用该模型相关的任何许可费用或成本。
  • 考虑费用和成本:了解模型的整体投资要求、许可费用和运营成本,准备评估模型的效能、收益和回报。

亚马逊云科技 Amazon Bedrock 是一项完全托管的服务,提供各种预先训练的基础模型,使用户能够根据特定应用需求选择跨越不同的领域的模型(包括语言文字处理、图像视频生成等),简化了生成式 AI 应用程序的构建和部署过程,帮助企业高效灵活地选择正确的模型。Amazon Bedrock 的 Model Evaluation 功能专门帮助用户评估模型。该服务通过统一的 API 接口,将不同的模型轻松地与其他 AWS 服务和工具集成,从而可以无缝地选择、微调、扩展和监控模型,确保 AI 应用程序的高质量输出和持续性能优化。

智能之旅是我们这一代企业经营者和员工的的使命,正确选择、精调、使用和评估人工智能基础模型是通往智能道路行动的重要一环。智能企业要着手集中安排团队和专人系统地获取掌握有关知识,有效地管理模型有关的职能。对于多数企业来说,从选择一个到几个已有的模型入手是现实的选择。通过选取合适的人工智能基础模型,企业可以确保依据整体业务战略有效进行投资,交付重要的可见的业务结果,安全地可持续地可推广地推进人工智能的应用,获取竞争优势并创造商业价值。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

其它系列文章

企业智能之旅(1): 建立智能企业的战略蓝图并付诸行动
企业智能之旅(2):着手进行企业智能的技术准备和实践
企业智能之旅(3):构建智能企业的文化、组织、人才与能力
企业智能之旅(4):智能企业为生成式 AI 做好数据准备
企业智能之旅(6):安全与负责任的 AI

本篇作者