Imagine que es un desarrollador de aprendizaje automático que trabaja en un banco. Se le pidió que desarrolle un modelo de aprendizaje automático para ayudar a los analistas de su empresa con la cantidad de noticias que necesitan leer para tomar decisiones de inversión. El modelo se entrenará en el conjunto de datos de 20newsgroups que contiene información sobre 20 temas en aproximadamente 20 000 documentos.

Como parte de su modelo, necesita extraer información semántica de los datos de las noticias, identificar artículos con noticias similares en el corpus y luego realizar recomendaciones de contenido a los analistas de artículos de noticias similares en función de las que leen.

En este laboratorio, aprenderá a crear una instancia de bloc de notas de Amazon SageMaker, descargar, preparar y organizar un conjunto de datos con un bloc de notas de Jupyter, entrenar e implementar un modelo de tema y finalmente entrenar e implementar el modelo de recomendación de contenido.

En el Módulo 1, configurará el entorno que utilizará durante el laboratorio.

Tiempo para completar el módulo: 20 minutos

 


  • Paso 1: Crear una cuenta de AWS

    Utilice una cuenta de AWS personal o cree una cuenta de AWS nueva para este laboratorio. No utilice una cuenta organizacional. De esa manera, tendrá un acceso total a los servicios necesarios y no olvidará ningún recurso del laboratorio. Si no elimina los recursos utilizados en este laboratorio al finalizar, podría incurrir en cargos de AWS.

  • Paso 2: Crear un bucket de Amazon S3

    Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector.

    El entrenamiento de un modelo produce datos de entrenamiento del modelo y artefactos del modelo. En este laboratorio, utiliza un bucket de Amazon S3 para organizar los conjuntos de datos de entrenamiento y validación y para almacenar los artefactos del modelo que Amazon SageMaker generó durante el entrenamiento del modelo.

    Para crear un bucket de Amazon S3:

    1. Inicie sesión en la consola de administración de AWS y abra la consola de Amazon S3.
    2. Elija Crear bucket.
    3. En Nombre del bucket, escriba sagemaker-xx donde xx son sus iniciales para que el nombre del bucket sea único.
    4. En Región, elija la Región de AWS donde desea que se encuentre el bucket.
    5. En Configuración de bucket deje la configuración habilitada en Bloqueo de acceso público.
    6. Elija Crear bucket.
  • Paso 3: Crear una instancia de bloc de notas de Amazon SageMaker

    Una instancia de bloc de notas de Amazon SageMaker es una instancia de cómputo de aprendizaje automático (ML) de Amazon Elastic Compute Cloud (Amazon EC2) totalmente administrada que ejecuta la aplicación de bloc de notas de Jupyter.

    En este laboratorio, utilizará la instancia de bloc de notas para crear y administrar su bloc de notas de Jupyter que puede emplear a fin de preparar y procesar datos y para entrenar e implementar su modelo de aprendizaje automático de recomendación de contenido.   

    Para crear una instancia de bloc de notas de Amazon SageMaker:

    1. Abra la consola de Amazon SageMaker.
    2. Elija Instancias de bloc de notas, y luego, Crear instancia de bloc de notas.
    3. En la página Crear instancia de bloc de notas, escriba un nombre para su instancia de bloc de notas en Nombre de instancia de bloc de notas.
    4. En Tipo de instancia, elija ml.t2.medium. Este es el tipo de instancia menos costoso que admiten las instancias de bloc de notas y es suficiente para este ejercicio.
    5. En Rol de IAM, elija Crear un rol nuevo, y luego, Crear rol.
    6. Elija Crear instancia de bloc de notas.

    En unos minutos, Amazon SageMaker lanza una instancia de cómputo de ML, en este caso una instancia de bloc de notas, y asocia a ella un volumen de almacenamiento de ML. La instancia de bloc de notas tiene un servidor de bloc de notas de Jupyter preconfigurado y un conjunto de bibliotecas Anaconda.

  • Paso 4: Crear un bloc de notas de Jupyter

    Creará un bloc de notas de Jupyter en la instancia de bloc de notas de Amazon SageMaker. También creará una celda que obtiene el rol de IAM que su bloc de notas necesita para ejecutar las API de Amazon SageMaker y especifica el nombre del bucket de Amazon S3 que empleará para almacenar los conjuntos de datos que utilizará para los datos de entrenamiento y los artefactos del modelo que produce un trabajo de entrenamiento de Amazon SageMaker.

    Para crear un bloc de notas de Jupyter:

    1. Abra la consola de Amazon SageMaker.
    2. Elija Instancias de bloc de notas y luego abra la instancia de bloc de notas que creó mediante la elección de Abrir Jupyter para la vista clásica de Juypter o Abrir JupyterLab para la vista de JupyterLab.
      Nota: Si ve “Pendiente” a la derecha de la instancia de bloc de notas en la columna “Estado”, este aún se está creando. El estado cambiará a “InService” cuando el bloc de notas esté listo para usar.
    3. Cree el bloc de notas.
      • Si abrió el bloc de notas en Jupyter, en la pestaña Archivos, elija Nuevo y conda_python3. Este entorno preinstalado incluye la instalación predeterminada de Anaconda y Python
      • Si abrió el bloc de notas en JupyterLab, en el menú Archivo, elija Nuevo y luego, Bloc de notas. En Seleccionar kernel, elija conda_python3. Este entorno preinstalado incluye la instalación predeterminada de Anaconda y Python 3
    4. En el bloc de notas de Jupyter, elija Archivo y Guardar como y asigne un nombre al bloc de notas.

En este módulo, aprendió acerca del modelo de ML de ejemplo que entrena en este laboratorio. También configuró una cuenta de AWS y su entorno de laboratorio con un bucket de Amazon S3, una instancia de bloc de notas de Amazon SageMaker y un bloc de notas de Jupyter.

Ahora está listo para iniciar el laboratorio. En el siguiente módulo, descargará, preparará y organizará un conjunto de datos.