In questo modulo utilizzerai l'algoritmo Amazon SageMaker k-Nearest Neighbors (k-NN) per addestrare il modulo di raccomandazione dei contenuti.
Amazon SageMaker K-Nearest Neighbors (k-NN) è un algoritmo di apprendimento supervisionato, non parametrico e basato sugli indici, che è possibile utilizzare per attività di classificazione e regressione. Per la classificazione, l'algoritmo esegue la query dei punti k più vicini alla destinazione e restituisce l'etichetta più utilizzata della classe come etichetta prevista. Per i problemi di regressione, l'algoritmo restituisce la media dei valori previsti restituiti da k punti adiacenti più vicini.
L'addestramento con l'algoritmo k-NN è costituito da tre fasi: campionamento, riduzione della dimensione e creazione dell'indice. Il campionamento riduce la dimensione del set di dati iniziale in modo che possa essere contenuto in memoria. Per la riduzione della dimensione, l'algoritmo diminuisce la dimensione della caratteristica dei dati per ridurre l'ingombro del modello k-NN nella latenza della memoria e dell'interferenza. Sono forniti due metodi di riduzione della dimensione: la proiezione casuale e la trasformazione veloce Johnson-Lindenstrauss. In genere, si utilizza la riduzione della dimensione per set di dati ad alta dimensionalità (d >1000) per evitare la "maledizione della dimensionalità" che disturba l'analisi statistica dei dati limitandola man mano che aumenta la dimensionalità. L'obiettivo principale dell'addestramento k-NN è la creazione dell'indice. L'indice consente ricerche efficienti di distanze tra i punti i cui valori o etichette di classe non sono ancora stati determinati e dei punti k più vicini da utilizzare per l'inferenza.
Nelle fasi seguenti, specifichi l'algoritmo k-NN per l'attività di addestramento, imposti i valori degli iperparametri per ottimizzare il modello e lo esegui. Dopodiché, distribuisci il modello a un endpoint gestito da Amazon SageMaker per effettuare previsioni.
Tempo necessario per completare il modulo: 20 minuti
Complimenti! In questo modulo ti sei addestrato, hai distribuito e hai esplorato il modello di raccomandazione dei contenuti.
Nel prossimo modulo, rimuoverai le risorse che hai utilizzato in questa esercitazione.