Neste módulo, você usará o algoritmo integrado k-Nearest Neighbors (k-NN) do Amazon SageMaker para treinar o modelo de recomendações de conteúdo.
O K-Nearest Neighbors (k-NN) do Amazon SageMaker é um algoritmo de aprendizagem não paramétrico, baseado em índice e supervisionado que pode ser usado para tarefas de classificação e regressão. Para classificação, o algoritmo consulta os pontos k mais próximos do destino e retorna o rótulo mais frequentemente usado de sua classe como o rótulo previsto. Para problemas de regressão, o algoritmo retorna a média dos valores previstos retornados pelos vizinhos mais próximos de k.
O treinamento com o algoritmo k-NN tem três etapas: amostragem, redução de dimensão e criação de índice. A amostragem reduz o tamanho do conjunto de dados inicial para que ele caiba na memória. Para redução de dimensão, o algoritmo diminui a dimensão do recurso de dados para reduzir o espaço ocupado pelo modelo k-NN na latência da memória e inferência. Fornecemos dois métodos de redução de dimensão: projeção aleatória e a rápida transformação de Johnson-Lindenstrauss. Normalmente, a redução de dimensão para conjuntos de dados de alta dimensão (d > 1000) é usada para evitar a "maldição da dimensionalidade" que atrapalha a análise estatística dos dados que se tornam esparsos à medida que a dimensionalidade aumenta. O objetivo principal do treinamento de k-NN é criar o índice. O índice permite pesquisas eficientes de distâncias entre pontos cujos valores ou rótulos de classe ainda não foram determinados e os pontos mais próximos de k a serem usados para inferência.
Nas etapas a seguir, você especificará o algoritmo k-NN para o trabalho de treinamento, definirá os valores do hiperparâmetro para ajustar o modelo e executará o modelo. Em seguida, você implantará o modelo em um endpoint gerenciado pelo Amazon SageMaker para fazer previsões.
Tempo de conclusão do módulo: 20 minutos
Parabéns! Neste módulo, você treinou, implantou e explorou um modelo de recomendações de conteúdo.
No próximo módulo, você limpará os recursos usados neste laboratório.