Publicado: Oct 10, 2018
Agora, o Amazon SageMaker inclui uma implementação de modo de pipe aprimorada que acelera o streaming de dados do Amazon Simple Storage Service (S3) para o SageMaker durante o treinamento de módulos de machine learning (ML). A mais recente implementação do modo de pipe oferece até um streaming de dados até 9 vezes melhor que o modo de arquivo.
O Amazon SageMaker oferece suporte a dois métodos de transferência de dados de treinamento: modo de arquivo e modo de pipe. Com o modo de arquivo, os dados de treinamento são obtidos por download para um volume do EBS criptografado, conectado à instância de treinamento antes de treinar o modelo. Como o modo de pipe, os dados são transmitidos diretamente ao algoritmo de treinamento durante sua execução. Esse modo acelera as tarefas de treinamento e reduz o espaço em disco, diminuindo os custos gerais de treinamento de modelos de ML no SageMaker.
Dependendo dos requisitos e do ambiente, você pode escolher o modo adequado para um caso de uso. Por exemplo, se o conjunto de dados de treinamento for pequeno o suficiente para caber na memória e você precisar executar várias epochs, pode ser mais fácil usar o modo de arquivo e carregar tudo na memória. Se você tiver um algoritmo vinculado a E/S, o uso de modo de pipe oferecerá maior throughput e uma redução do tamanho do volume de espaço necessário.
A implementação mais recente do modo de pipe está presente em todas as regiões da AWS nas quais o Amazon SageMaker está disponível. Acesse a documentação do Amazon SageMaker para obter mais detalhes.