想象一下,您是在银行工作的机器学习开发人员。公司要求您开发一个机器学习模型,以帮助公司的分析人员阅读他们需要阅读的大量新闻,从而作出投资决策。该模型将在 20newsgroups 数据集中进行训练,其中约有 20000 个文件,包含 20 个主题的相关信息。

作为模型的一部分,您需要从新闻数据中提取语义信息,然后从语料库中识别类似的新闻文章,并根据分析人员正在阅读的新闻为他们提供类似新闻的内容推荐。

在本实验室中,您将了解如何创建 Amazon SageMaker 笔记本实例,使用 Jupyter 笔记本下载、准备和暂存数据集,训练和部署您的主题模型,最后再训练和部署内容推荐模型。

在模块 1 中,您将配置在实验室中使用的环境。

完成模块所需时间:20 分钟

 


  • 第 1 步:创建 AWS 账户

    使用个人 AWS 账户或为此实验创建一个新的 AWS 账户。不要为了获得对必要服务的完全访问权限而使用组织账户,也不要留下任何来自实验的资源。如果您在完成时未删除此实验使用的资源,则可能会产生 AWS 费用。

  • 步骤 2:创建 Amazon S3 存储桶

    Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。

    训练模型会产生模型训练数据和模型构件。在本实验室中,您将使用 Amazon S3 存储桶暂存训练和验证数据集,并存储 Amazon SageMaker 在模型训练期间生成的模型构件。

    要创建 Amazon S3 存储桶:

    1. 登录 AWS 管理控制台并打开 Amazon S3 控制台
    2. 选择创建存储桶
    3. 对于存储桶名称,请键入 sagemaker-xx,其中 xx 是您的首字母缩写,可让您的存储桶名称成为唯一名称。
    4. 区域中,选择您希望存储桶驻留的 AWS 区域
    5. 阻止公有访问存储桶设置中,保持设置的启用状态。
    6. 选择创建存储桶
  • 步骤 3:创建 Amazon SageMaker 笔记本实例

    Amazon SageMaker 笔记本实例是一个完全托管的机器学习 (ML) Amazon Elastic Compute Cloud (Amazon EC2) 计算实例,该实例运行 Jupyter 笔记本应用程序。

    在本实验室中,您将使用笔记本实例创建和管理您的 Jupyter 笔记本,您可以使用该笔记本准备和处理数据,并训练和部署您的内容推荐机器学习模型。   

    要创建 Amazon SageMaker 笔记本实例:

    1. 打开 Amazon SageMaker 控制台
    2. 选择笔记本实例,然后选择创建笔记本实例
    3. 创建笔记本实例页面的笔记本实例名称中,输入笔记本实例的名称。
    4. 对于实例类型,选择 ml.t2.medium。该实例是笔记本实例支持的最便宜的实例类型,对于本次练习来说足够了。
    5. 对于 IAM 角色,选择创建新角色,然后选择创建角色
    6. 选择创建笔记本实例

    Amazon SageMaker 可以在几分钟内启动一个 ML 计算实例(在本案例中为笔记本实例)并将 ML 存储卷附加到该实例上。笔记本实例有一个预先配置的 Jupyter 笔记本服务器和一组 Anaconda 库。

  • 步骤 4:创建 Jupyter 笔记本

    您可以在 Amazon SageMaker 笔记本实例中创建一个 Jupyter 笔记本。您还可以创建一个单元格来获取您的笔记本运行 Amazon SageMaker API 所需的 IAM 角色,并指定您将用于存储数据集以用于训练数据的 Amazon S3 存储桶名称,及 Amazon SageMaker 训练作业输出的模型构件。

    要创建 Jupyter 笔记本:

    1. 打开 Amazon SageMaker 控制台
    2. 选择笔记本实例,然后通过选择适用于经典 Juypter 视图的打开 Jupyter 或适用于 JupyterLab 视图的打开 JupyterLab来打开您创建的笔记本实例。
      注意:如果您在状态栏中的笔记本实例右侧看到“待处理”,则您的笔记本仍在创建中。当笔记本可以使用时,状态将变为“可用”。
    3. 创建笔记本。
      • 如果您在 Jupyter 中打开了笔记本,则在文件选项卡中,依次选择新建conda_python3。这个预安装的环境包括默认的 Anaconda 安装和 Python
      • 如果您已在 JupyterLab 中打开了笔记本,则在文件菜单中,依次选择新建笔记本。对于选择内核,选择 conda_python3。这个预安装的环境包括默认的 Anaconda 安装和 Python 3。
    4. 在 Jupyter 笔记本中,选择文件另存为,然后为笔记本命名。

在此模块中,您了解了在此实验中训练的示例 ML 模型。您还可以使用 Amazon S3 存储桶、Amazon SageMaker 笔记本实例和 Jupyter 笔记本设置 AWS 账户和您的实验环境。

现在可以开始实验了。在下一个模块中,您将下载、准备和暂存您的数据集。