Dalam modul ini, Anda menggunakan Algoritme Neural Topic Model (NTM) Amazon SageMaker bawaan untuk melatih model topik.
NTM Amazon SageMaker adalah algoritme pembelajaran yang tidak diawasi yang digunakan untuk mengatur korpus dokumen ke dalam topik yang berisi pengelompokan kata berdasarkan distribusi statistiknya. Dokumen yang sering mengandung kata-kata seperti "sepeda", "mobil", "kereta api", "jarak tempuh", dan "kecepatan" cenderung berbagi topik tentang "transportasi" misalnya. Pemodelan topik dapat digunakan untuk mengklasifikasikan atau meringkas dokumen berdasarkan topik yang terdeteksi atau untuk mengambil informasi atau merekomendasikan konten berdasarkan kesamaan topik. Topik dari dokumen yang dipelajari oleh NTM digolongkan sebagai representasi laten karena topik tersebut disimpulkan dari distribusi kata yang diamati dalam korpus. Semantik topik biasanya disimpulkan dengan memeriksa kata-kata peringkat teratas yang dikandungnya. Karena metode ini tidak diawasi, hanya jumlah topik, bukan topik itu sendiri, yang ditentukan sebelumnya. Selain itu, topik tidak dijamin selaras dengan bagaimana manusia dapat secara alami mengelompokkan dokumen.
Dalam langkah berikut, Anda menentukan algoritme NTM untuk tugas pelatihan, menentukan infrastruktur untuk model, mengatur nilai hyperparameter untuk menyesuaikan model, dan menjalankan model. Kemudian, Anda menerapkan model ke titik akhir yang dikelola oleh Amazon SageMaker untuk membuat prediksi.
Waktu untuk Menyelesaikan Modul: 20 Menit
Dalam modul ini, Anda mengambil Algoritme Neural Topic Model (NTM) Amazon SageMaker dari Amazon ECR. Kemudian, Anda menentukan hyperparameter khusus algoritma dan menyediakan bucket Amazon S3 untuk penyimpanan artefak. Selanjutnya, Anda menerapkan model ke titik akhir menggunakan layanan hosting Amazon SageMaker atau batch transform. Akhirnya, Anda menjelajahi model menggunakan nilai yang berbeda untuk nomor topik.
Dalam modul berikutnya, Anda melatih dan menggunakan model rekomendasi konten Anda.