В этом модуле вы будете использовать встроенный в Amazon SageMaker алгоритм k-ближайших соседей (k-NN), чтобы обучить модель рекомендаций по контенту.
Алгоритм K-ближайших соседей (k-NN) в Amazon SageMaker – это непараметрический алгоритм контролируемого обучения на основе индексов, который можно использовать для задач классификации и регрессии. Для классификации этот алгоритм опрашивает k ближайших к цели точек и возвращает наиболее часто используемую метку их класса в качестве спрогнозированной метки. При решении проблем регрессии этот алгоритм извлекает среднее из спрогнозированных значений, возвращенных k ближайшими соседями.
Обучение с помощью алгоритма k-NN состоит из трех шагов: получение выборки, снижение размерности и построение индекса. При получении выборки размер исходного набора данных сокращается, чтобы его можно было уместить в памяти. При снижении размерности алгоритм уменьшает размерность свойств, чтобы сократить объем модели k-NN в памяти и задержку формирования логических выводов. Мы предоставляем два способа снижения размерности: случайная проекция и быстрое преобразование Джонсона – Линденштраусса. Обычно снижение размерности применяется к наборам данных высокой размерности (d >1000) во избежание «проклятия размерности», которое влияет на статистический анализ данных: их количество растет по мере увеличения размерности. Основной целью обучения с использованием модели k-NN является создание индекса. Индекс обеспечивает эффективный поиск дистанции между точками, чьи значения или метки классов еще не определены, и k ближайших точек для формирования логических выводов.
На следующих этапах вы укажете алгоритм k-NN для задания обучения, значения гиперпараметров для настройки модели и запустите ее. После вы развернете модель на конечной точке, управляемой Amazon SageMaker, чтобы сформировать прогнозы.
Время, необходимое для прохождения модуля: 20 минут
Поздравляем! В этом модуле вы обучили, развернули и исследовали модель рекомендаций по контенту.
В следующем модуле мы очистим ресурсы, которые использовали в этом курсе.