Bu modülde içerik öneri modelini eğitmek için yerleşik Amazon SageMaker k-En Yakın Komşular (k-NN) Algoritmasını kullanacaksınız.
Amazon SageMaker K-En Yakın Komşular (k-NN), sınıflandırma ve regresyon görevleri için kullanılabilen, parametrik olmayan, dizin tabanlı, denetlenen bir öğrenme algoritmasıdır. Sınıflandırma için algoritma, k en yakın puanlarını hedefe sorgular ve tahmini etiket olarak sınıflarının en sık kullanılan etiketini verir. Regresyon sorunları için algoritma k en yakın komşuların verdiği tahmini değerlerin ortalamasını verir.
k-NN algoritması ile eğitim üç adımda uygulanır: örnekleme, boyut azaltma ve dizin oluşturma. Örnekleme, başlangıç veri kümesinin boyutunu azaltarak onun belleğe sığmasını sağlar. Boyut azaltma için algoritma bellek ve çıkarsama gecikmesinin ayak izinin azalması için k-NN modelinin verilerin özellik boyutunu düşürür. İki tür boyut azaltma yöntemi sağlıyoruz: rastgele yansıtma ve hızlı Johnson-Lindenstrauss dönüşümü. Genellikle boyut düzeyi arttıkça seyrekleşen istatistiksel veri analizinde sorun çıkaran “boyut düzeyi laneti”nden kaçınmak için yüksek boyutlu (d >1000) veri kümeleri için boyut azaltmayı kullanırsınız. K-NN eğitiminin ana amacı dizin oluşturmaktır. Dizin, değerleri veya sınıf etiketleri henüz belirlenmemiş puanlar arasındaki uzaklıkların etkili aranmasını ve k en yakın puanların çıkarsama için kullanılmasını sağlar.
Aşağıdaki adımlarda eğitim işi için k-NN algoritmanızı belirtecek, modeli ayarlamak için hiper parametre değerlerini ayarlayacak ve modeli çalıştıracaksınız. Daha sonra tahmin yürütmesi için modeli Amazon SageMaker tarafından yönetilen uç noktaya dağıtacaksınız.
Modülü Tamamlama Süresi: 20 Dakika
Tebrikler! Bu modülde içerik öneri modelinizi eğittiniz, dağıttınız ve keşfettiniz.
Bir sonraki modülde bu laboratuvarda kullandığınız kaynakları temizleyeceksiniz.