Hãy tưởng tượng bạn là nhà phát triển máy học đang làm việc tại một ngân hàng. Bạn được yêu cầu phát triển một mô hình máy học để hỗ trợ các nhà phân tích trong công ty đưa ra quyết định đầu tư dựa trên lượng tin tức khổng lồ họ cần đọc. Mô hình này sẽ được đào tạo trên tập dữ liệu 20newsgroups, chứa thông tin về 20 chủ đề từ gần 20.000 tài liệu.

Trong mô hình của mình, bạn cần phải rút ra thông tin ngữ nghĩa học từ dữ liệu tin tức, sau đó xác định những bản tin tương tự nhau trong tập ngữ liệu và đề xuất cho các nhà phân tích những mẩu tin tương tự như mẩu tin họ đang đọc.

Trong lab này, bạn sẽ tìm hiểu cách tạo phiên bản Sổ ghi chép Amazon SageMaker; tải xuống, chuẩn bị và bố trí một tập dữ liệu bằng sổ ghi chép Jupyter; đào tạo và triển khai mô hình chủ đề; cuối cùng là đào tạo và triển khai mô hình đề xuất nội dung.

Trong mô-đun 1, bạn sẽ đặt cấu hình môi trường sẽ sử dụng xuyên suốt lab này.

Thời gian hoàn thành mô-đun: 20 phút

 


  • Bước 1: Tạo tài khoản AWS

    Dùng tài khoản AWS cá nhân hoặc tạo tài khoản AWS mới cho phòng thực hành này. Không dùng tài khoản tổ chức, như vậy bạn sẽ có toàn quyền truy cập vào các dịch vụ cần thiết và không để sót bất kỳ tài nguyên nào từ phòng thực hành. Nếu bạn không xóa các tài nguyên đã dùng trong phòng thực hành này khi hoàn thành, bạn có thể bị tính phí AWS.

  • Bước 2: Tạo một vùng lưu trữ Amazon S3 mới

    Amazon Simple Storage Service (Amazon S3) là một dịch vụ lưu trữ đối tượng, mang đến khả năng điều chỉnh quy mô, mức độ sẵn sàng của dữ liệu, sự bảo mật và hiệu năng hàng đầu trong ngành.

    Quá trình đào tạo mô hình sẽ tạo ra dữ liệu đào tạo mô hình và các thành phần lạ của mô hình. Trong lab này, bạn sẽ dùng vùng lưu trữ Amazon S3 để bố trí tập dữ liệu đào tạo và xác thực, cũng như để lưu trữ các thành phần lạ mà Amazon SageMaker tạo ra trong quá trình đào tạo mô hình.

    Cách tạo vùng lưu trữ Amazon S3 mới:

    1. Đăng nhập vào Bảng điều khiển quản lý AWS rồi mở bảng điều khiển Amazon S3.
    2. Chọn Tạo vùng lưu trữ.
    3. Đối với Tên vùng lưu trữ, hãy đặt là sagemaker-xx, trong đó xx là ký tự do bạn tự đặt để tên vùng lưu trữ không bị trùng lặp.
    4. Trong phần Khu vực, hãy chọn Khu vực AWS mà bạn muốn đặt vùng lưu trữ.
    5. Trong mục Cài đặt vùng lưu trữ cho tùy chọn Chặn quyền truy cập công khai, hãy để tùy chọn cài đặt này ở trạng thái bật.
    6. Chọn Tạo vùng lưu trữ.
  • Bước 3: Tạo phiên bản Sổ ghi chép Amazon SageMaker

    Phiên bản sổ ghi chép Amazon SageMaker là phiên bản điện toán Amazon Elastic Compute Cloud (Amazon EC2) máy học được quản lý toàn diện, chạy trên ứng dụng Jupyter Notebook.

    Trong lab này, bạn sẽ sử dụng phiên bản sổ ghi chép này để tạo và quản lý sổ ghi chép Jupyter mà bạn có thể dùng để chuẩn bị và xử lý dữ liệu, sau đó đào tạo và triển khai mô hình máy học đề xuất nội dung của mình.   

    Cách tạo phiên bản sổ ghi chép Amazon SageMaker:

    1. Mở bảng điều khiển Amazon SageMaker.
    2. Chọn Phiên bản sổ ghi chép rồi chọn Tạo phiên bản sổ ghi chép.
    3. Trên trang Phiên bản sổ ghi chép, trong mục Tên phiên bản sổ ghi chép, hay đặt tên cho phiên bản sổ ghi chép của bạn.
    4. Đối với Loại phiên bản, hãy chọn ml.t2.medium. Đây là loại phiên bản ít tốn kém nhất được hỗ trợ và đủ dùng cho bài tập này.
    5. Đối với Vai trò IAM, hãy chọn Tạo vai trò mới rồi chọn Tạo vai trò.
    6. Chọn Tạo phiên bản sổ ghi chép.

    Trong ít phút, Amazon SageMaker sẽ khởi chạy một phiên bản điện toán máy học (trong trường hợp này là phiên bản sổ ghi chép) và đính kèm một ổ lưu trữ máy học vào phiên bản đó. Phiên bản sổ ghi chép này sẽ có máy chủ sổ ghi chép Jypyter cấu hình sẵn và một tập hợp các thư viện Anaconda.

  • Bước 4: Tạo sổ ghi chép Jupyter

    Bạn sẽ tạo một sổ ghi chép Jupyter trên phiên bản Sổ ghi chép Amazon SageMaker của mình. Bạn cũng sẽ tạo một ô nhận vai trò IAM mà sổ ghi chép cần để chạy API Amazon SageMaker API, cũng như đặt tên cho vùng lưu trữ Amazon S3 mà bạn sẽ dùng để lưu trữ các tập dữ liệu phục vụ việc đào tạo dữ liệu và để lưu trữ các thành phần lạ do tác vụ đào tạo của Amazon SageMaker tạo ra.

    Cách tạo sổ ghi chép Jupyter:

    1. Mở bảng điều khiển Amazon SageMaker.
    2. Chọn Phiên bản sổ ghi chép rồi mở sổ ghi chép bạn vừa tạo bằng cách chọn Mở Jupyter nếu muốn mở trên Jupyter cổ điển hoặc Mở JupyterLab để mở trên JupyterLab.
      Lưu ý: Nếu bạn thấy thông báo Đang xử lý ở bên phải phiên bản sổ ghi chép trong cột Trạng thái, thì nghĩa là sổ ghi chép của bạn đang được tạo. Trạng thái sẽ chuyển thành InService khi sổ ghi chép sẵn sàng sử dụng.
    3. Tạo sổ ghi chép.
      • Nếu bạn mở sổ ghi chép trong Jupyter, trên tab Tệp, hãy chọn Mới rồi chọn conda_python3. Môi trường cài đặt sẵn này sẽ bao gồm bản cài đặt Anaconda mặc định và Python
      • Nếu bạn mở sổ ghi chép trong JupyterLab, thì trên menu Tệp, hãy chọn Mới rồi chọn Sổ ghi chép. Trong mục Chọn Kernel, hãy chọn conda_python3. Môi trường cài đặt sẵn này sẽ bao gồm bản cài đặt Anaconda mặc định và Python 3.
    4. Trong sổ ghi chép Jupyter, hãy chọn TệpLưu dưới dạng rồi đặt tên cho sổ ghi chép đó.

Trong mô-đun này, bạn đã tìm hiểu về mô hình máy học ví dụ mà bạn đào tạo trong lab này. Bạn cũng đã thiết lập tài khoản AWS và môi trường lab với vùng lưu trữ Amazon S3, phiên bản Sổ ghi chép Amazon SageMaker và sổ ghi chép Jupyter notebook.

Giờ bạn đã sẵn sàng để bắt đầu thực hành. Trong mô-đun tiếp theo, bạn sẽ tìm hiểu cách tải xuống, chuẩn bị và bố trí tập dữ liệu.