Dans ce module, vous utilisez l'algorithme intégré Amazon SageMaker k-Nearest Neighbors (k-NN) pour entraîner le modèle de recommandation de contenu.
Amazon SageMaker K-Nearest Neighbors (k-NN) est un algorithme d'apprentissage supervisé non paramétrique, basé sur un index, qui peut être utilisé pour les tâches de classification et de régression. Pour la classification, l'algorithme interroge les k points les plus proches de la cible et renvoie l'étiquette la plus fréquemment utilisée de leur classe comme étiquette prédite. Pour les problèmes de régression, l'algorithme renvoie la moyenne des valeurs prédites renvoyées par les voisins les plus proches de k.
L'entraînement avec l'algorithme k-NN comporte trois étapes : l'échantillonnage, la réduction de la dimension et la construction de l'index. L'échantillonnage réduit la taille de l'ensemble de données initial afin qu'il tienne dans la mémoire. Pour la réduction de la dimension, l'algorithme diminue la dimension caractéristique des données afin de réduire l'empreinte du modèle k-NN en mémoire et la latence d'inférence. Nous proposons deux méthodes de réduction des dimensions : la projection aléatoire et la transformation rapide Johnson-Lindenstrauss. En règle générale, nous utilisons la réduction dimensionnelle pour les ensembles de données de grande dimension (d >1000) afin d'éviter la « malédiction de la dimensionnalité » qui perturbe l'analyse statistique des données qui deviennent de plus en plus clairsemées au fur et à mesure que les dimensions augmentent. L'objectif principal de l'entraînement de l'algorithme k-NN est de construire l'index. L'index permet les recherches efficaces de distances entre les points dont les valeurs ou les étiquettes de classe n'ont pas encore été déterminées et les points les plus proches de k à utiliser pour l'inférence.
Dans les étapes suivantes, vous spécifiez votre algorithme k-NN pour la tâche d'entraînement, définissez les valeurs des hyperparamètres pour optimiser le modèle et exécutez le modèle. Ensuite, vous déployez le modèle sur un point de terminaison géré par Amazon SageMaker pour effectuer des prédictions.
Durée du module : 20 minutes
Félicitations ! Dans ce module, vous avez entraîné, déployé et exploré votre modèle de recommandation de contenu.
Dans le module suivant, vous allez nettoyer les ressources que vous avez utilisées dans cet exercice.