假設您是位在銀行工作的機器學習開發人員。您需要開發一種機器學習模型,以協助公司的分析師處理他們需要閱讀的大量新聞,以便做出投資決策。該模型將在 20newsgroups 資料集中訓練,包含約 20,000 個文件中的 20 個主題的資訊。

作為模型的一部分,您需要從新聞資料中擷取語義資訊,然後從語料庫中識別相似的新聞文章,並根據正在閱讀的相似新聞為分析師提供內容推薦。

在本實驗室中,您將了解如何建立 Amazon SageMaker 筆記本執行個體,使用 Jupyter 筆記本下載、準備和暫存資料集,訓練和部署主題模型,最後訓練和部署內容推薦模型。

在單元 1 中,您將設定在實驗室期間使用的環境。

完成單元的時間:20 分鐘

 


  • 步驟 1:建立 AWS 帳戶

    使用個人 AWS 帳戶或為此實驗室建立新的 AWS 帳戶。請勿使用組織帳戶以便您對所需的服務具有完整存取權,也不要留下實驗室中的任何資源。如果您在完成後未刪除此實驗室中使用的資源,可能要支付 AWS 費用。

  • 步驟 2:建立 Amazon S3 儲存貯體

    Amazon Simple Storage Service (Amazon S3) 物件儲存服務提供領先業界的可擴展性、資料可用性、安全性及效能。

    訓練模型會產生模型訓練資料和模型成品。在本實驗室中,您將使用 Amazon S3 儲存貯體來暫存訓練和驗證資料集,並存放模型訓練期間 Amazon SageMaker 產生的模型成品。

    若要建立 Amazon S3 儲存貯體:

    1. 登入 AWS 管理主控台,然後開啟 Amazon S3 主控台
    2. 選擇建立儲存貯體
    3. 對於儲存貯體名稱,輸入 sagemaker-xx,其中 xx 是您的姓名首字母,以設定唯一的儲存貯體名稱。
    4. 區域中,選擇要駐留儲存貯體的 AWS 區域
    5. 儲存貯體設定區塊公用存取中,將設定保持啟用狀態。
    6. 選擇建立儲存貯體
  • 步驟 3:建立 Amazon SageMaker 筆記本執行個體

    Amazon SageMaker 筆記本執行個體是執行 Jupyter Notebook 應用程式的全受管機器學習 (ML) Amazon Elastic Compute Cloud (Amazon EC2) 運算執行個體。

    在本實驗室中,您將使用筆記本執行個體建立和管理您的 Jupyter 筆記本,這可用於準備和處理資料,以及訓練和部署內容推薦機器學習模型。   

    若要建立 Amazon SageMaker 筆記本執行個體:

    1. 開啟 Amazon SageMaker 主控台
    2. 選擇筆記本執行個體,然後選擇建立筆記本執行個體
    3. 建立筆記本執行個體頁面上,為筆記本執行個體名稱輸入您的筆記本執行個體名稱。
    4. 對於執行個體類型,選擇 ml.t2.medium。這是筆記本執行個體支援的最實惠的執行個體類型,並且足以完成此練習。
    5. 對於 IAM 角色,選擇建立新角色,然後選擇建立角色
    6. 選擇建立筆記本執行個體

    幾分鐘後,Amazon SageMaker 即會啟動 ML 運算執行個體 (在本例中為筆記本執行個體),並為其附加 ML 儲存磁碟區。筆記本執行個體具有預先設定的 Jupyter 筆記本伺服器和一組 Anaconda 程式庫。

  • 步驟 4:建立 Jupyter 筆記本

    您將在 Amazon SageMaker 筆記本執行個體中建立 Jupyter 筆記本。您還將建立儲存格,可獲取筆記本執行 Amazon SageMaker API 所需的 IAM 角色,並指定您將用於存放資料集的 Amazon S3 儲存貯體名稱,該資料集用於儲存訓練資料,以及 Amazon SageMaker 訓練任務輸出的模型成品。

    若要建立 Jupyter 筆記本:

    1. 開啟 Amazon SageMaker 主控台
    2. 選擇筆記本執行個體,然後,針對傳統 Juypter 檢視,選擇開啟 Jupyter,針對 JupyterLab 檢視,選擇開啟 JupyterLab,來開啟您建立的筆記本執行個體。
      注意:若您在狀態欄中看到筆記本執行個體右側顯示「待處理」,則您的筆記本仍在建立中。筆記本可供使用後,狀態將變更為 InService。
    3. 建立筆記本。
      • 若您在 Jupyter 中開啟筆記本,則在檔案標籤上,選擇新建,然後選擇 conda_python3。此預裝環境包括預設的 Anaconda 安裝和 Python
      • 若您在 JupyterLab 中開啟筆記本,則在檔案功能表選擇新建,然後選擇筆記本。針對選取核心,選擇 conda_python3。此預裝環境包括預設的 Anaconda 安裝和 Python 3。
    4. 在 Jupyter 筆記本中,選擇檔案另存新檔,然後為筆記本命名。

在此單元中,您已了解在本實驗室中訓練的範例 ML 模型。您還可以使用 Amazon S3 儲存貯體、Amazon SageMaker 筆記本執行個體和 Jupyter 筆記本,設定一個 AWS 帳戶和您的實驗室環境。

您現在已準備好開始使用實驗室。在下一個單元中,您將下載、準備和暫存資料集。