Trong mô-đun này, bạn sẽ dùng Thuật toán mô hình chủ đề nơ-ron (NTM) Amazon SageMaker tích hợp để huấn luyện mô hình chủ đề.
Amazon SageMaker NTM là thuật toán học không giám sát, được dùng để sắp xếp tập ngữ liệu trong các tài liệu thành những chủ đề chứa các nhóm từ được phân chia dựa trên phân phối thống kê. Ví dụ: các tài liệu chứa những từ xuất hiện nhiều lần như "xe đạp", "ô tô", "tàu hỏa", "quãng đường" và "vận tốc" thì có khả năng cao sẽ thuộc chủ đề "giao thông". Kỹ thuật tạo mô hình chủ đề có thể được dùng để phân loại hoặc tóm tắt tài liệu dựa trên những chủ đề phát hiện được, hoặc dùng để truy xuất dữ liệu hay đề xuất nội dung dựa trên những sự tương đồng về chủ đề. Các chủ đề của những tài liệu mà NTM học hỏi sẽ được biểu diễn dưới dạng ẩn vì các chủ đề này được suy diễn từ các phân phối từ ngữ quan sát được trong tập ngữ liệu. Ngữ nghĩa học của các chủ đề thường được suy luận bằng cách kiểm tra những từ xếp hạng cao nhất có trong đó. Do đây là phương pháp học không giám sát, nên chỉ có thể xác định trước số lượng chủ đề, chứ không phải chính chủ đề. Ngoài ra, không có gì đảm bảo các chủ đề này sẽ thống nhất với cách phân loại tài liệu thông thường của con người.
Trong các bước tiếp theo, bạn sẽ xác định thuật toán NTM cho tác vụ đào tạo, xác định cơ sở hạ tầng cho mô hình, đặt giá trị siêu tham số để tinh chỉnh mô hình và chạy mô hình. Sau đó, bạn sẽ triển khai mô hình cho một điểm cuối do Amazon SageMaker quản lý để đưa ra dự đoán.
Thời gian hoàn thành mô-đun: 20 phút
Trong mô-đun này, bạn đã truy xuất Thuật toán mô hình chủ đề nơ-ron (NTM) Amazon SageMaker từ Amazon ECR. Sau đó, bạn đã xác định các siêu tham số theo thuật toán cụ thể và cung cấp vùng lưu trữ Amazon S3 để lưu trữ thành phần lạ. Tiếp đến, bạn đã triển khai mô hình chủ đề cho điểm cuối bằng các dịch vụ lưu trữ Amazon SageMaker hoặc bằng tính năng chuyển đổi hàng loạt. Cuối cùng, bạn đã khám phá mô hình theo những giá trị khác nhau đối với số lượng chủ đề.
Trong mô-đun tiếp theo, bạn sẽ đào tạo và triển khai mô hình đề xuất nội dung.