ในโมดูลนี้ คุณจะใช้อัลกอริทึม k-Nearest Neighbors (k-NN) ในตัวของ Amazon SageMaker เพื่อฝึกฝนโมเดลการแนะนำเนื้อหา
Amazon SageMaker K-Nearest Neighbors (k-NN) คืออัลกอริทึมการเรียนรู้แบบนอนพาราเมตริกอิงดัชนีที่มีผู้สอน ซึ่งสามารถใช้สำหรับงานด้านการแยกประเภทและการถดถอยได้ สำหรับการแยกประเภท อัลกอริทึมนี้จะสืบค้นจุดที่ใกล้เป้าหมายที่สุด k ตัว และส่งผลลัพธ์ที่ใช้บ่อยที่สุดของประเภทนั้นคืนกลับมาเป็นผลลัพธ์ที่คาดการณ์ สำหรับปัญหาด้านการถดถอย อัลกอริทึมนี้จะส่งกลับค่าเฉลี่ยของค่าที่คาดการณ์ซึ่งส่งคืนมาจากเพื่อนบ้านที่ใกล้ที่สุด k ตัว
การฝึกฝนด้วยอัลกอริทึม k-NN ประกอบด้วย 3 ขั้นตอน ได้แก่ การสุ่มตัวอย่าง การลดมิติ และการสร้างดัชนี การสุ่มตัวอย่างจะลดขนาดของชุดข้อมูลเริ่มต้นเพื่อให้พอดีกับหน่วยความจำ สำหรับการลดมิติ อัลกอริทึมนี้จะลดมิติคุณลักษณะของข้อมูลเพื่อลดฟุตพรินต์ของโมเดล k-NN ในหน่วยความจำและเวลาแฝงของการอนุมาน เรามีวิธีการลดมิติ 2 วิธี ได้แก่ การคาดคะเนเชิงสุ่มและการแปลงแบบ Johnson-Lindenstrauss ที่รวดเร็ว โดยทั่วไป คุณจะใช้การลดมิติสำหรับชุดข้อมูลที่มีมิติสูง (d >1000) เพื่อหลีกเลี่ยง “ปัญหาของมิติข้อมูล” ซึ่งเป็นอุปสรรคต่อการวิเคราะห์เชิงสถิติของข้อมูลที่จะมีน้อยลงเมื่อมิติข้อมูลเพิ่มขึ้น วัตถุประสงค์หลักของการฝึกฝน k-NN ก็คือการสร้างดัชนี ดัชนีจะช่วยเพิ่มประสิทธิภาพในการค้นหาระยะทางระหว่างจุดที่ยังไม่มีการระบุค่าหรือผลลัพธ์ของประเภท และจุดที่ใกล้ที่สุด k ตัวเพื่อใช้สำหรับการอนุมาน
ในขั้นตอนต่อไปนี้ คุณจะต้องกำหนดอัลกอริทึม k-NN สำหรับงานฝึกฝน ตั้งค่าไฮเปอร์พารามิเตอร์เพื่อปรับจูนโมเดล และเรียกใช้โมเดล จากนั้น คุณจะต้องปรับใช้โมเดลไปยังตำแหน่งข้อมูลที่จัดการโดย Amazon SageMaker เพื่อสร้างการคาดการณ์
ระยะเวลาที่ใช้ในการศึกษาโมดูล: 20 นาที
ขอแสดงความยินดี! ในโมดูลนี้ คุณได้ฝึกฝน ปรับใช้ และสำรวจโมเดลการแนะนำเนื้อหาเรียบร้อยแล้ว
ในโมดูลถัดไป คุณจะต้องล้างข้อมูลทรัพยากรที่คุณใช้ในแล็บนี้