In diesem Modul verwenden Sie den integrierten Amazon SageMaker k-Nearest Neighbors (k-NN)-Algorithmus, um das Inhaltsempfehlungsmodell zu schulen.
Amazon SageMaker K-Nearest Neighbors (k-NN) ist ein nicht-parametrischer, indexbasierter, überwachter Lernalgorithmus, der für Klassifizierungs- und Regressionsaufgaben verwendet werden kann. Bei der Klassifizierung fragt der Algorithmus die k-Punkte ab, die dem Ziel am nächsten liegen, und gibt die am häufigsten verwendete Bezeichnung ihrer Klasse als prognostizierte Bezeichnung zurück. Bei Regressionsproblemen gibt der Algorithmus den Durchschnitt der prognostizierten Werte zurück, die von den k nächstgelegenen Nachbarn zurückgegeben werden.
Das Training mit dem k-NN-Algorithmus umfasst drei Schritte: Sampling, Dimensionsreduzierung und Indexerstellung. Durch Sampling wird die Größe des anfänglichen Datensatzes reduziert, sodass es in den Arbeitsspeicher passt. Bei der Dimensionsreduzierung verringert der Algorithmus die Funktionsdimension der Daten, um den Ressourcenbedarf des k-NN-Modells im Speicher und die Inferenzlatenz zu senken. Wir stellen zwei-Methoden der Dimensionsreduzierung zur Verfügung: zufällige Projektion und die schnelle Johnson-Lindenstrauss-Transformation. In der Regel verwenden Sie die Dimensionsreduzierung für hochdimensionale Datensätze (d > 1000), um die „Nachteile der Dimensionalität“ zu vermeiden, die die statistische Analyse von Daten beeinträchtigt, deren Dichte mit steigender Dimensionalität geringer wird. Das Hauptziel des k-NN-Trainings ist die Erstellung des Index. Der Index ermöglicht ein effizientes Suchen von Entfernungen zwischen Punkten, deren Werte oder Klassenbezeichnungen noch nicht festgelegt wurden, und den k nächstgelegenen Punkten zur Inferenz.
In den folgenden Schritten geben Sie den k-NN-Algorithmus für den Trainingsauftrag an, setzen die Hyperparameterwerte fest, um das Modell zu optimieren, und führen das Modell aus. Anschließend stellen Sie das Modell auf einem Endpunkt bereit, der von Amazon SageMaker verwaltet wird, um Prognosen vorzunehmen.
Veranschlagte Zeit für das Modul: 20 Minuten
Herzlichen Glückwunsch! In diesem Modul haben Sie Ihr Inhaltsempfehlungsmodell geschult, bereitgestellt und erkundet.
Im nächsten Modul bereinigen Sie die von Ihnen in dieser Übung verwendeten Ressourcen.