게시된 날짜: May 24, 2018
이제 내장된 Amazon SageMaker 알고리즘을 사용하여 파이프 입력 모드에서 훈련 작업을 35% 더 빠르게 실행할 수 있습니다. 파이프 입력 모드를 사용하면 훈련 작업이 Amazon Simple Storage Service(Amazon S3)에서 훈련 인스턴스의 알고리즘 컨테이너로 데이터를 직접 스트리밍하여 훈련 작업에 대해 더 빠른 시작 시간과 다 나은 처리량을 제공합니다. 예를 들어, 벤치마크에 따르면 78GB 파일에서 시작 시간이 최대 10분까지 개선되며 일부 벤치마크에서는 처리량이 2배나 더 빨라지는 것으로 나타났습니다.
대부분의 Amazon SageMaker 알고리즘은 최적화된 protobuf recordIO 형식을 속도 최적화를 위한 데이터 훈련에 사용할 때 가장 효과적입니다. 이 형식을 사용하면 지원되는 알고리즘을 훈련할 때 파이프 입력 모드를 활용할 수 있습니다. 파이프 입력 모드 전에는 파일 입력 모드를 사용하여 모든 데이터를 Amazon S3에서 훈련 인스턴스에 부착된 Amazon Elastic Block Store(Amazon EBS) 볼륨으로 로드해야 했으며 이 방식에는 최종 모델 요소와 전체 훈련 데이터 세트 모두를 저장할 디스크 공간이 필요합니다. 파일 입력 모드는 알고리즘에 여러 epoch이 필요하며 훈련 데이터 세트가 메모리에 들어갈 만큼 작은 경우에 여전히 선호되지만 대형 데이터 세트에는 파이프 입력 모드가 더 적합합니다.