Amazon Web Services 한국 블로그
Amazon SageMaker Ground Truth의 최근 신규 기능 모음
AWS re:Invent 2018에서 출시된 Amazon SageMaker Ground Truth는 Amazon SageMaker의 기능으로, 이 기능을 통해 고객은 기계 학습 시스템을 학습시키는 데 필요한 데이터 세트에 효율적이고 정확하게 레이블을 지정할 수 있습니다.
Ground Truth에 대한 간단한 소개
Amazon SageMaker Ground Truth를 사용하면 기계 학습을 위해 매우 정확한 학습 데이터 세트를 빠르게 구축할 수 있습니다. SageMaker Ground Truth를 사용하면 공개 및 비공개 레이블 지정 작업자에게 간편하게 액세스할 수 있으며, 이들에게 공통 레이블 지정 작업을 위한 기본 워크플로와 인터페이스를 제공합니다. 또한 SageMaker Ground Truth는 자동 레이블 지정을 사용하여 레이블 지정 비용을 최대 70%까지 낮출 수 있으며, 이 자동 레이블 지정을 통해 서비스가 독립적으로 데이터에 레이블을 지정하는 방법을 학습할 수 있도록 사람이 레이블을 지정하는 데이터로부터 Ground Truth를 학습시킵니다.
Amazon SageMaker Ground True를 사용하면 다음과 같은 용도로 데이터 세트를 작성할 수 있습니다.
- 텍스트 분류
- 이미지 분류(특정 클래스의 이미지 분류)
- 물체 감지(경계 상자가 있는 이미지에서 객체 찾기)
- 의미론적 분할(픽셀 단위 정밀도의 이미지에서 객체 찾기)
- 사용자가 정의한 사용자 지정 작업(고객이 모든 내용을 주석으로 작성할 수 있음)
레이블을 지정하는 팀을 통해 이들에게 직접 레이블 지정 요청을 전달할 수 있습니다. 아니면, 확장이 필요한 경우 조직 외부의 레이블 지정 작업자와 협력하기 위해 Amazon SageMaker Ground Truth 콘솔에서 옵션을 직접 제공합니다. Amazon Mechanical Turk와 통합을 통해 500,000명이 넘는 레이블 지정 작업자의 공개 인력에 액세스할 수 있습니다. 또는 데이터에 기밀 또는 특별한 기술이 필요한 경우 Amazon에서 선별하여 AWS Marketplace에 나열된 전문 레이블 지정 기업을 활용할 수 있습니다.
서비스를 출시한 이후, T-Mobile, Pinterest, Change Healthcare, GumGum, Automagi 등 많은 기업으로부터 수많은 고객 피드백을 수집했습니다. (계속 피드백을 부탁 드립니다!) 이 피드백을 바탕으로 다음 반복에서 서비스의 형태를 정의하였고, 불과 몇 주 전에 많은 고객이 요청했던 두 가지 기능을 출시했습니다.
- 다중 범주 경계 상자: 이 기능을 사용하면 한 이미지에서 여러 범주에 레이블을 동시에 지정할 수 있습니다.
- 사용자 지정 워크플로에 대한 세 가지 새로운 UI 템플릿: 이미지, 텍스트 및 오디오 데이터 세트에 대한 주석 워크플로를 빠르게 구축하는 데 도움이 되는 총 15개의 서로 다른 템플릿에 대해 지원됩니다.
레이블 지정 워크플로를 구축하고 실행하는 프로세스를 간소화하는 새로운 기능 세트 기능에 대해 각각 살펴보겠습니다.
레이블 작업 구성
종종 이전 레이블 지정 작업의 출력을 사용하여 후속 레이블 지정 작업을 실행하려는 고객이 있습니다. 기본적으로 이들은 출력된 레이블 지정 데이터 세트 및 출력된 ML 모델(자동화된 데이터 레이블 지정이 활성화된 경우)을 사용하여 레이블 지정 작업을 연결할 수 있습니다. 예를 들어, 이미지에 사람이 있는지 식별하는 초기 작업을 실행한 후, 사람 주변에 경계 상자를 그리는 후속 작업을 실행하려고 합니다.
또한 능동 학습을 사용하는 경우 고객은 생성된 ML 모델을 사용하여 후속 작업에서 자동화된 데이터 레이블 지정 부트스트랩을 수행하려고 합니다. 설정은 매우 간단합니다. 한 번만 클릭하면 레이블 지정 작업을 연결할 수 있습니다!
레이블 작업 추적
고객이 레이블 지정 작업의 진행 상태를 확인하려고 합니다. 이제 AWS는 레이블 지정 작업에 대해 거의 실시간에 가까운 상태를 제공합니다.
장기 실행 작업
많은 고객이 레이블 지정 작업자와 같은 전문가를 활용하며, 이러한 전문가가 정기적으로 레이블 지정 작업을 수행합니다. 예를 들어, 보험 회사에서는 종종 임상의를 전문 레이블 지정 작업자로 이용하며, 가동 중단 중에만 가끔 레이블 지정 작업을 수행할 수 있습니다. 이 시나리오에서는 레이블 지정 작업을 오래, 때로는 몇 주나 몇 개월에 걸쳐 실행해야 합니다. 이제 AWS는 연장된 작업 제한 시간을 지원하면서, 레이블 지정 작업의 각 배치를 10일 동안 실행할 수 있습니다. 즉, 레이블 지정 작업을 수개월로 연장시킬 수 있습니다.
동적 사용자 지정 워크플로
사용자 지정 워크플로를 설정하는 경우 고객은 원본 데이터 외에도 추가 컨텍스트를 삽입하거나 사용하려고 합니다. 예를 들어, 고객은 레이블 지정 작업자에게 전송하는 작업에서 각 이미지 위에 특정 기상 조건을 표시하려고 합니다. 이 정보는 레이블 지정 작업자가 작업을 더 효과적으로 수행하도록 도와줍니다. 특히, 이 기능을 사용하여 고객은 이전 레이블 지정 작업의 출력이나 다른 사용자 지정 콘텐츠를 사용자 지정 워크플로에 삽입할 수 있습니다. 이 정보는 원본 데이터 및 추가 컨텍스트를 포함하는 기능이 보강된 매니페스트 파일을 사용하여 사전 처리된 Lambda 함수로 전달됩니다. 또한 고객은 추가 컨텍스트를 사용하여 워크플로를 동적으로 조정할 수도 있습니다.
신규 서비스 공급자 및 언어
AWS Marketplace에 두 개의 새로운 데이터 레이블 지정 서비스 공급자, Vivetic과 SmartOne이 추가되었습니다. 이 두 벤더를 추가하면서, Amazon SageMaker Ground Truth는 프랑스어, 독일어, 스페인어에서 데이터 레이블 지정에 대한 지원도 추가할 예정입니다.
리전 확장
이제 미국 동부(버지니아), 미국 중부(오하이오), 미국 서부(오레곤), 유럽(아일랜드), 아시아 태평양(도쿄) 외에도 아시아 태평양(시드니)에서 사용할 수 있습니다.
ZipRecruiter의 활용 사례
ZipRecruiter는 구직 활동과 더불어, 직원이 훌륭한 기업을 만들어나갈 수 있도록 지원하고 있습니다. 이 기업은 Amazon SageMaker가 출시된 이후로 이 서비스를 사용하고 있습니다. ZipRecruiter CTO Craig Ogg는 “ZipRecruiter의 AI 기반 알고리즘은 모든 직원이 검색하는 내용을 학습하며, 연관성이 높은 맞춤화된 후보 명단을 제공합니다. 그리고 기업의 이 기술을 활용하여 시장 반대편에서도 가장 관련 있는 직업과 구직자를 매칭시킵니다. 이 모든 작업을 효과적으로 수행하기 위해 업로드된 이력서에서 자동으로 관련 데이터를 추출하는 기계 학습 모델이 필요했습니다.”라고 이야기하였습니다.
물론, 기계 학습 프로세스의 핵심은 데이터 세트 구축에 있으며, 이 작업은 종종 시간과 비용이 많이 들어갑니다. ZipRecruiter는 이 두 가지 문제를 해결하기 위해 Ground Truth와 AWS의 레이블 지정 파트너인 iMerit의 도움을 받았습니다.
Craig는 “Amazon SageMaker Ground Truth는 학습을 위한 데이터 세트를 생성하는 데 필요한 시간과 노력을 크게 줄여줄 것입니다. 데이터의 기밀성 때문에 저희는 처음에 팀 중 하나를 투입하는 방법을 고려했지만, 원래 업무에서 시간을 너무 뺏을 수 있었고, 필요한 데이터를 수집하는 데만 수개월이 걸릴 수도 있었습니다. 그래서 저희는 Amazon SageMaker Ground Truth를 사용하고, Amazon에서 사용자 지정 주석 프로젝트를 지원하기 위해 미리 선별해둔 전문 레이블 지정 기업인 iMerit와 협력하였습니다. 이들의 도움을 받아 자체 팀에서 해당 작업을 진행했다면 소요될 시간에 비해 아주 짧은 시간 안에 수천 개의 주석을 수집할 수 있었습니다.”라고 설명하였습니다.
Amazon SageMaker Ground Truth를 사용해보시고 의견을 들려주십시오. 이 멋진 서비스의 다음 반복을 구축할 때 큰 도움이 됩니다!