Imagine que você é um desenvolvedor de machine learning trabalhando em um banco. Você foi solicitado a desenvolver um modelo de machine learning para ajudar os analistas da sua empresa com a quantidade de notícias que eles precisam ler para tomar decisões de investimento. O modelo será treinado no conjunto de dados 20newsgroups que contém informações sobre 20 tópicos em aproximadamente 20.000 documentos.

Como parte do modelo, você precisa extrair informações semânticas dos dados de notícias, identificar artigos de notícias semelhantes no corpus e fornecer recomendações de conteúdo aos analistas para itens de notícias semelhantes com base nos que eles estão lendo.

Neste laboratório, você aprenderá como criar uma instância de bloco de anotações do Amazon SageMaker, fazer download, preparar e organizar um conjunto de dados usando um bloco de anotações Jupyter, treinar e implantar o modelo de tópicos e, por fim, treinar e implantar o modelo de recomendações de conteúdo.

No Módulo 1, você configura o ambiente que usará durante o laboratório.

Tempo de conclusão do módulo: 20 minutos

 


  • Etapa 1: Crie uma conta da AWS

    Use uma conta pessoal da AWS ou crie uma nova conta da AWS para este laboratório. Não use uma conta organizacional para ter total acesso aos serviços necessários nem deixe para trás quaisquer recursos do laboratório. Se você não excluir os recursos usados neste laboratório ao terminar, poderá haver cobranças da AWS.

  • Etapa 2: Crie um bucket do Amazon S3

    O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece dimensionamento, disponibilidades de dados, segurança e performance líderes do setor.

    O treinamento de modelos produz dados de treinamento e artefatos de modelo. Neste laboratório, você usará um bucket do Amazon S3 para preparar os conjuntos de dados de treinamento e validação e armazenar os artefatos de modelo gerados pelo Amazon SageMaker durante o treinamento do modelo.

    Para criar um bucket do Amazon S3:

    1. Faça login no Console de Gerenciamento da AWS e abra o console do Amazon S3.
    2. Selecione Criar bucket.
    3. Em nome do Bucket, digite sagemaker-xx, onde xx são as sua iniciais, para tornar o nome do bucket exclusivo.
    4. Em Regão, escolha a Região da AWS onde deseja que o bucket resida.
    5. Em configurações do Bucket, deixe as configurações de Bloquear o acesso público habilitadas.
    6. Selecione Criar bucket.
  • Etapa 3: Crie uma instância de bloco de anotações do Amazon SageMaker

    Uma instância de bloco de anotações do Amazon SageMaker é uma instância de computação do Amazon Elastic Compute Cloud (Amazon EC2) de machine learning (ML) totalmente gerenciada que executa o aplicativo bloco de anotações Jupyter.

    Neste laboratório, você usa a instância de bloco de anotações para criar e gerenciar o bloco de anotações Jupyter que pode ser usado para preparar e processar dados, além de treinar e implantar o modelo de machine learning de recomendações de conteúdo.   

    Para criar uma instância de bloco de anotações do Amazon SageMaker:

    1. Abra o console do Amazon SageMaker.
    2. Escolha Instância de bloco de anotações e, em seguida, escolha Criar instância de bloco de anotações.
    3. Na página Criar instância do bloco de anotações, em Nome da instância de bloco de anotações, digite um nome para a instância de bloco de anotações.
    4. Em Tipo de instância, escolha ml.t2.medium. Esse é o tipo de instância mais barato compatível com as instâncias de bloco de anotações e é suficiente para este exercício.
    5. Em Função do IAM, escolha Criar uma nova função e, em seguida, escolha Criar função.
    6. Escolha Criar instância de bloco de anotações.

    Em alguns minutos, o Amazon SageMaker inicia uma instância de computação de ML (nesse caso, uma instância de bloco de anotações) e associa um volume de armazenamento de ML a ela. A instância de bloco de anotações possui um servidor de bloco de anotações Jupyter pré-configurado e um conjunto de bibliotecas Anaconda.

  • Etapa 4: Crie um bloco de anotações Jupyter

    Crie um bloco de anotações Jupyter na instância de bloco de anotações do Amazon SageMaker. Crie também uma célula para obter a função do IAM que o bloco de anotações precisa para executar APIs do Amazon SageMaker e para especificar o nome do bucket do Amazon S3 que você usará para armazenar os conjuntos de dados usados para dados de treinamento e para os artefatos do modelo que resultam de um trabalho de treinamento do Amazon SageMaker.

    Para criar um bloco de anotações Jupyter:

    1. Abra o console do Amazon SageMaker.
    2. Escolha Instâncias de bloco de anotações e, em seguida, abra a instância de bloco de anotações criada escolhendo Abrir o Jupyter para visualização clássica do Juypter ou Abrir o JupyterLab para visualização do JupyterLab.
      Observação: se você vir Pendente à direita da instância do bloco de anotações na coluna Status, o bloco de anotações ainda está sendo criado. O status mudará para Em serviço quando o bloco de anotações estiver pronto para uso.
    3. Crie o bloco de anotações.
      • Se você abriu o bloco de anotações no Jupyter, na guia Arquivos , escolha Novo e conda_python3. Esse ambiente pré-instalado inclui a instalação padrão do Anaconda e o Python
      • Se você abriu o bloco de anotações no JupyterLab, no menu Arquivo, escolha Novo e, em seguida, escolha Bloco de anotações. Em Selecionar Kernel, escolha conda_python3. Esse ambiente pré-instalado inclui a instalação padrão do Anaconda e o Python 3.
    4. No bloco de anotações Jupyter, escolha Arquivo e Salvar como e escolha o nome do bloco de anotações.

Neste módulo, você aprendeu sobre o exemplo de modelo de ML que criou neste laboratório. Configure também uma conta da AWS e o ambiente de laboratório com um bucket do Amazon S3, uma instância de bloco de anotações do Amazon SageMaker e um bloco de anotações Jupyter.

Agora, você está pronto para começar o laboratório. No próximo módulo, você fará download, preparará e organizará o conjunto de dados.