게시된 날짜: Jun 6, 2018
이제 TensorFlow 훈련을 다수의 GPU로 확장할 수 있는 인기 오픈 소스 분산 훈련 프레임워크인 Horovod가 Ubuntu 및 Amazon Linux용 AWS Deep Learning AMI에 사전 설치되고 완전히 구성된 상태로 제공됩니다.
Horovod가 추가됨에 따라 Machine Learning 개발자는 Amazon EC2 P3 인스턴스에서 단일 GPU의 교육을 여러 GPU로 확장하여 AMI에서 제공되는 최적화된 TensorFlow 1.8 빌드의 훈련 성능을 추가로 개선할 수 있습니다.
Horovod는 고성능 분산 컴퓨팅 환경의 노드 간 메시지 전달 및 통신 관리를 위한 일반적인 표준인 MPI(메시지 전달 인터페이스) 모델을 사용합니다. Horovod의 MPI 구현은 표준 TensorFlow 분산 훈련 모델보다 간소화된 프로그래밍 모델을 제공합니다. 따라서 개발자는 기존의 단일 GPU 훈련 프로그램을 최소한의 코드 변경으로 손쉽게 확장할 수 있습니다.
또한 Horovod는 NVIDIA Collective Communications Library(NCCL)를 사용하여 다중 GPU 및 다중 노드 통신을 위한 기본 기능(예: all-reduce)의 구현을 최적화함으로써 P3 인스턴스의 성능을 가속화합니다.
단일 p3.16xlarge P3 인스턴스에서 최적화된 TensorFlow 1.8 빌드 및 OpenMPI 1.10.7을 사용하여 Horovod 테스트를 시행한 결과 ImageNet 데이터 세트를 통해 ResNet-50 모델을 훈련할 때의 속도가 표준 TensorFlow 분산 훈련 모델을 사용할 때보다 1.2배 더 빨라졌습니다.
이제 AWS Marketplace에서 최신 AWS Deep Learning AMI를 사용할 수 있습니다. 시작하기 자습서를 사용하여 AMI 사용을 시작하거나 개발자 안내서에서 추가 자습서, 리소스 및 릴리스 정보를 확인할 수 있습니다. 토론 포럼을 구독하면 새로운 출시 발표 소식을 받고 질문을 게시할 수도 있습니다.