Trong mô-đun này, bạn sẽ sử dụng Thuật toán lân cận k gần nhất (k-NN) Amazon SageMaker tích hợp để đào tạo mô hình đề xuất nội dung.
Lân cận K gần nhất (k-NN) Amazon SageMaker là một thuật toán học có giám sát, dựa trên chỉ mục và không cần tham số. Thuật toán này có thể được dùng để phân loại và hồi quy các nhiệm vụ. Để phân loại, thuật toán này sẽ truy vấn các điểm k gần nhất với mục tiêu và trả về nhãn dự đoán là nhãn thường gặp nhất của lớp chứa các điểm k đó. Đối với vấn đề hồi quy, thuật toán này trả về giá trị dự đoán trung bình mà các điểm lân cận k gần nhất trả về.
Quá trình đào tạo bằng thuật toán k-NN sẽ có 3 bước: lấy mẫu, giảm số chiều và dựng chỉ mục. Lấy mẫu sẽ giúp giảm thiểu kích thước của tập dữ liệu ban đầu để phù hợp với bộ nhớ. Để giảm số chiều, thuật toán sẽ làm giảm số chiều đặc trưng của dữ liệu để giảm thiểu dấu vết của mô hình k-NN trong bộ nhớ và độ trễ suy luận. Chúng tôi cung cấp 2 phương pháp giảm số chiều: chiếu ngẫu nhiên và chuyển đổi nhanh Johnson-Lindenstrauss. Thông thường, bạn sẽ muốn giảm số chiều cho các tập dữ liệu rất nhiều chiều (d >1000) để tránh “sự bùng nổ tổ hợp” gây khó khăn cho hoạt động phân tích thống kê những dữ liệu mà có nguy cơ trở nên thưa thớt khi số chiều tăng lên. Mục đích chính của việc đào tạo theo thuật toán k-NN là xây dựng chỉ mục. Chỉ mục giúp tra cứu một cách hiệu quả khoảng cách giữa các điểm có giá trị hoặc nhãn lớp chưa xác định được, cũng như các điểm k gần nhất cần dùng cho suy luận.
Trong các bước tiếp theo, bạn sẽ xác định thuật toán k-NN cho tác vụ đào tạo, đặt giá trị siêu tham số để tinh chỉnh mô hình và chạy mô hình. Sau đó, bạn sẽ triển khai mô hình cho một điểm cuối do Amazon SageMaker quản lý để đưa ra dự đoán.
Thời gian hoàn thành mô-đun: 20 phút
Xin chúc mừng! Trong mô-đun này, bạn đã đào tạo, triển khai và khám phá mô hình đề xuất nội dung của mình.
Trong mô-đun tiếp theo, bạn sẽ dọn dẹp các tài nguyên đã tạo trong lab này.