Dalam modul ini, Anda menggunakan Algoritme k-Nearest Neighbor (k-NN) Amazon SageMaker bawaan untuk melatih model rekomendasi konten.
K-Nearest Neighbors (k-NN) Amazon SageMaker adalah algoritme pembelajaran nonparametrik, berbasis indeks, yang diawasi yang dapat digunakan untuk tugas klasifikasi dan regresi. Untuk klasifikasi, mengkueri algoritme ke titik k closest ke target dan mengembalikan label yang paling sering digunakan untuk kelas mereka sesuai label yang diprediksi. Untuk masalah regresi, algoritme mengembalikan rata-rata nilai yang diprediksi yang dihasilkan oleh k closest neighbor.
Melatih dengan algoritme k-NN memiliki tiga langkah: pengambilan sampel, pengurangan dimensi, dan membangun indeks. Pengambilan sampel mengurangi ukuran dataset awal, sehingga sesuai dengan memori. Untuk pengurangan dimensi, algoritme mengurangi dimensi fitur data untuk mengurangi footprint model k-NN dalam memori dan latensi inferensi. Kami menyediakan dua metode pengurangan dimensi: proyeksi acak dan Fast Johnson-Lindenstrauss Transform. Biasanya, Anda menggunakan pengurangan dimensi untuk dataset berdimensi tinggi (d> 1000) untuk menghindari "kutukan dimensi" yang menyulitkan analisis statistik data yang menjadi jarang seiring dengan meningkatnya dimensi. Tujuan utama pelatihan k-NN adalah membangun indeks. Indeks memungkinkan pencarian jarak secara efisien antara titik-titik yang nilainya atau label kelasnya belum ditentukan dan k nearest point yang akan digunakan untuk inferensi.
Dalam langkah berikut, Anda menentukan algoritme k-NN untuk tugas pelatihan, mengatur nilai hyperparameter untuk menyesuaikan model, dan menjalankan model. Kemudian, Anda menerapkan model ke titik akhir yang dikelola oleh Amazon SageMaker untuk membuat prediksi.
Waktu untuk Menyelesaikan Modul: 20 Menit
Selamat! Dalam modul ini, Anda melatih, menerapkan, dan menjelajahi model rekomendasi konten.
Dalam modul berikutnya, Anda membersihkan sumber daya yang digunakan di lab ini.