En este módulo, utilice el algoritmo de vecino k más próximo (k-NN) integrado de Amazon SageMaker para entrenar el modelo de recomendación de contenido.
Los vecinos k más próximos (k-NN) de Amazon SageMaker es un algoritmo de aprendizaje supervisado, basado en índice, no paramétrico que se puede utilizar para las tareas de clasificación y regresión. Para la clasificación, el algoritmo consulta los puntos k más próximos al objetivo y devuelve la etiqueta de la clase utilizada más frecuentemente como la etiqueta prevista. Para los problemas de regresión, el algoritmo arroja el promedio de valores de predicción arrojado por los vecinos k más próximos.
El entrenamiento con el algoritmo k-NN tiene tres pasos: muestreo, reducción de dimensión y creación de índice. El muestreo reduce el tamaño del conjunto de datos inicial para ajustarlo a la memoria. Para la reducción de dimensión, el algoritmo disminuye la dimensión de las características de los datos a fin de reducir la capacidad del modelo k-NN en la memoria y la latencia de la inferencia. Ofrecemos dos métodos de reducción de dimensionalidad: proyección aleatoria y la transformación rápida Johnson-Lindenstrauss. Generalmente, utiliza la reducción de dimensión para conjuntos de datos de alta dimensión (d>1000) a fin de evitar la “maldición de la dimensionalidad” que complica el análisis estadístico de datos que se vuelve disperso a medida que la dimensionalidad aumenta. El objetivo principal del entrenamiento de k-NN es construir el índice. El índice permite búsquedas rápidas eficaces de distancias entre puntos cuyos valores o etiquetas de clase aún no fueron determinados y los puntos k más cercanos para utilizar para inferencia.
En los pasos siguientes, especifique el algoritmo k-NN para el trabajo de entrenamiento, configure los valores de hiperparámetros a fin de ajustar y ejecutar el modelo. Luego, implemente el modelo en un punto de enlace administrado por Amazon SageMaker para hacer predicciones.
Tiempo para completar el módulo: 20 minutos
¡Felicitaciones! En este módulo entrenó, implementó y exploró el modelo de recomendación de contenido.
En el siguiente módulo, puede limpiar los recursos que utilizó en este laboratorio.