Hãy tưởng tượng bạn là nhà phát triển máy học đang làm việc tại một ngân hàng. Bạn được yêu cầu phát triển một mô hình máy học để hỗ trợ các nhà phân tích trong công ty đưa ra quyết định đầu tư dựa trên lượng tin tức khổng lồ họ cần đọc. Mô hình này sẽ được đào tạo trên tập dữ liệu 20newsgroups, chứa thông tin về 20 chủ đề từ gần 20.000 tài liệu.
Trong mô hình của mình, bạn cần phải rút ra thông tin ngữ nghĩa học từ dữ liệu tin tức, sau đó xác định những bản tin tương tự nhau trong tập ngữ liệu và đề xuất cho các nhà phân tích những mẩu tin tương tự như mẩu tin họ đang đọc.
Trong lab này, bạn sẽ tìm hiểu cách tạo phiên bản Sổ ghi chép Amazon SageMaker; tải xuống, chuẩn bị và bố trí một tập dữ liệu bằng sổ ghi chép Jupyter; đào tạo và triển khai mô hình chủ đề; cuối cùng là đào tạo và triển khai mô hình đề xuất nội dung.
Trong mô-đun 1, bạn sẽ đặt cấu hình môi trường sẽ sử dụng xuyên suốt lab này.
Thời gian hoàn thành mô-đun: 20 phút
Trong mô-đun này, bạn đã tìm hiểu về mô hình máy học ví dụ mà bạn đào tạo trong lab này. Bạn cũng đã thiết lập tài khoản AWS và môi trường lab với vùng lưu trữ Amazon S3, phiên bản Sổ ghi chép Amazon SageMaker và sổ ghi chép Jupyter notebook.
Giờ bạn đã sẵn sàng để bắt đầu thực hành. Trong mô-đun tiếp theo, bạn sẽ tìm hiểu cách tải xuống, chuẩn bị và bố trí tập dữ liệu.