Neste módulo, você usará o algoritmo integrado de Modelagem tópica neural (NTM) do Amazon SageMaker para treinar o modelo de tópicos.
O NTM do Amazon SageMaker é um algoritmo de aprendizagem não supervisionado usado para organizar um corpus de documentos em tópicos que contêm agrupamentos de palavras com base em sua distribuição estatística. Documentos que contêm ocorrências frequentes de palavras como "bicicleta", "carro", "trem", "quilometragem" e "velocidade" provavelmente compartilham um tópico sobre "transporte", por exemplo. A modelagem de tópicos pode ser usada para classificar ou resumir documentos com base nos tópicos detectados ou para recuperar informações ou recomendar conteúdo com base em similaridades de tópicos. Os tópicos dos documentos que o NTM aprende são caracterizados como uma representação latente porque os tópicos são inferidos a partir das distribuições de palavras observadas no corpus. A semântica dos tópicos geralmente é inferida examinando as palavras mais importantes que eles contêm. Como o método não é supervisionado, apenas o número de tópicos, e não os próprios tópicos, são pré-especificados. Além disso, não é garantido que os tópicos estejam alinhados à forma como um humano categorizaria naturalmente os documentos.
Nas etapas a seguir, você especificará o algoritmo NTM para o trabalho de treinamento, especificará a infraestrutura do modelo, definirá os valores do hiperparâmetro para ajustar o modelo e executará o modelo. Em seguida, você implantará o modelo em um endpoint gerenciado pelo Amazon SageMaker para fazer previsões.
Tempo de conclusão do módulo: 20 minutos
Neste módulo, você recuperou o algoritmo de Modelagem tópica neural (NTM) do Amazon SageMaker a partir do Amazon ECR. Em seguida, você especificou hiperparâmetros específicos do algoritmo e forneceu o bucket do Amazon S3 para armazenamento de artefatos. Depois, você implantou o modelo em um endpoint usando os serviços de hospedagem ou transformação em lote do Amazon SageMaker. Por fim, você explorou o modelo usando valores diferentes para o número do tópico.
No próximo módulo, você treinará e implantará o modelo de recomendações de conteúdo.