In questo modulo, userai l'Algoritmo integrato Amazon SageMaker NTM (Neural Topic Model) per addestrare il tuo modello di argomento.
Amazon SageMaker NTM è un algoritmo di apprendimento non supervisionato che viene utilizzato per organizzare un corpus di documenti in argomenti che contengono raggruppamenti di parole in base alla distribuzione statistica. I documenti che contengono frequenti occorrenze di parole come "bici", "auto", "treno", "chilometraggio" e "velocità" potrebbero condividere un argomento sul "trasporto", ad esempio. Puoi utilizzare la modellazione degli argomenti per classificare o riepilogare i documenti in base agli argomenti rilevati o per recuperare informazioni o consigliare i contenuti in base alle somiglianze tra argomenti. Gli argomenti dei documenti che NTM apprende sono caratterizzati come una rappresentazione latente perché gli argomenti sono dedotti dalle distribuzioni di parole osservate nel corpus. La semantica degli argomenti solitamente viene dedotta esaminando le parole più importanti che contengono. Dato che il metodo non è supervisionato, viene specificato solo il numero di argomenti e non gli argomenti stessi. Inoltre, non è possibile garantire l'allineamento degli argomenti con la capacità umana di categorizzare naturalmente i documenti.
Nei passaggi seguenti, specifichi l'algoritmo NTM per l'addestramento e l'infrastruttura del modello, quindi imposti i valori degli iperparametri per ottimizzare il modello ed eseguirlo. Dopodiché, distribuisci il modello a un endpoint gestito da Amazon SageMaker per effettuare previsioni.
Tempo necessario per completare il modulo: 20 minuti
In questo modulo, hai recuperato l'algoritmo Amazon SageMaker NTM (Neural Topic Model) da Amazon ECR. Dopodiché, hai specificato gli iperparametri specifici dell'algoritmo e fornito il bucket di Amazon S3 per lo storage di artefatti. Quindi, hai distribuito il modello in un endpoint tramite i servizi di hosting o la trasformazione in batch di Amazon SageMaker. Infine, hai esplorato il modello usando diversi valori per il numero di argomenti.
Nel modulo seguente, addestrerai e distribuirai un modello di raccomandazione dei contenuti.