In diesem Modul verwenden Sie den integrierten Amazon SageMaker Neural Topic Model (NTM)-Algorithmus, um das Themenmodell zu schulen.
Amazon SageMaker NTM ist ein unbeaufsichtigter Lernalgorithmus, der beim Organisieren eines Dokumentenkorpus in Themen verwendet wird, die Wortgruppierungen basierend auf ihrer statistischen Verteilung enthalten. Beispielsweise werden Dokumente, in den die Wörter wie z. B. "Fahrrad", "Auto", "Zug", "Meilen" und "Geschwindigkeit" häufig auftreten, wahrscheinlich zum Thema "Transport" gehören. Die Themenmodellierung kann verwendet werden, um basierend auf den erkannten Themen Dokumente zu klassifizieren oder zusammenzufassen oder Informationen abzurufen oder basierend auf Themenähnlichkeiten Inhalte zu empfehlen. Die Themen aus Dokumenten, die NTM lernt, werden als latente Darstellung charakterisiert, da die Themen aus den beobachteten Wortverteilungen im Korpus abgeleitet werden. Die Semantik von Themen wird in der Regel durch die Untersuchung der hochgestellten Wörter abgeleitet, die sie enthalten. Da die Methode nicht überwacht wird, wird nur die Anzahl der Themen (nicht die Themen selbst) vorab angegeben. Darüber hinaus wird es nicht garantiert, dass die Themen an Dokumente so angleichen, wie ein Mensch diese natürlich kategorisieren.
In den folgenden Schritten geben Sie den NTM-Algorithmus für den Trainingsauftrag, die Infrastruktur für das Modell an, setzen die Hyperparameterwerte fest, um das Modell zu optimieren, und führen das Modell aus. Anschließend stellen Sie das Modell auf einem Endpunkt bereit, der von Amazon SageMaker verwaltet wird, um Prognosen vorzunehmen.
Veranschlagte Zeit für das Modul: 20 Minuten
In diesem Modul haben Sie den Amazon SageMaker Neural Topic Model (NTM)-Algorithmus von Amazon ECR abgerufen. Anschließend haben Sie algorithmenspezifische Hyperparameter angegeben und den Amazon S3-Bucket für die Artefaktspeicherung bereitgestellt. Als Nächstes haben Sie das Modell mithilfe von Amazon SageMaker-Hostingdiensten oder Batch Transform auf einem Endpunkt bereitgestellt. Schließlich haben Sie das Modell anhand verschiedener Werte für die Themenanzahl erkundet.
Im nächsten Modul schulen und stellen Sie Ihr Inhaltsempfehlungsmodell bereit.