Amazon Web Services 한국 블로그

Amazon Q Developer 기반 Amazon SageMaker Canvas에서 ML 모델 구축

데이터 과학자인 저는 ML 경험이 없는 각 분야의 전문가인 비즈니스 분석가, 마케팅 분석가, 데이터 분석가, 데이터 엔지니어가 기계 학습(ML)을 이용할 수 있도록 하는 데 따르는 어려움을 직접 경험했습니다. 이것이 바로 오늘 Amazon SageMaker Canvas에서 Amazon Q Developer를 사용할 수 있다는 Amazon Web Services(AWS)의 발표가 특히 기대되는 이유입니다. 제 관심을 끄는 점은 Amazon Q Developer에서 ML 전문 지식을 비즈니스 요구 사항과 연결하여 조직 전체에서 ML에 더 쉽게 이용할 수 있도록 하는 데 어떻게 도움이 되는가입니다.

Amazon Q Developer는 도메인 전문가가 ML에 대한 전문 지식이 없더라도 자연어 상호 작용을 통해 정확한 프로덕션 품질의 ML 모델을 구축할 수 있도록 지원합니다. Amazon Q Developer는 이러한 사용자에게 비즈니스 문제를 분석하고 데이터를 세분화하여 사용자 지정 ML 모델을 빌드하기 위한 단계별 지침을 추전하도록 안내합니다. 사용자 데이터를 변환하여 이상치를 제거하고 사용자 지정 ML 모델을 빌드 및 평가하여 최상의 모델을 추천하는 동시에 안내식 ML 워크플로의 모든 단계에 대한 제어력과 가시성을 사용자에게 제공합니다. 이를 통해 조직은 시장 출시 시간을 단축하고 더 빠르게 혁신할 수 있습니다. 또한 ML 전문가에 대한 의존도를 줄여주므로 전문가는 더 복잡한 기술 과제에 집중할 수 있습니다.

예를 들어 마케팅 분석가가 “주택 특성 및 과거 판매 데이터를 사용하여 주택 판매 가격을 예측하고 싶다”고 말할 수 있습니다. 이런 경우 Amazon Q Developer는 이를 일련의 ML 단계로 변환하여 관련 고객 데이터를 분석하고 여러 모델을 빌드하고 최상의 접근 방식을 추천합니다.

이제 실제 작동 모습을 살펴보겠습니다.
Amazon Q Developer를 사용하려면 Amazon SageMaker Canvas 사용 시작하기 안내서에 따라 Canvas 애플리케이션을 실행합니다. 이 데모에서는 자연어 지침을 사용하여 마케팅 및 재무 팀의 주택 가격을 예측하는 모델을 생성해보겠습니다. SageMaker Canvas 페이지에서 Amazon Q를 선택한 후 새 대화 시작을 선택합니다.

새 대화에서 저는 다음과 같이 쓰겠습니다.

나는 분석가인데 마케팅 및 재무 팀의 주택 가격을 예측해야 해.

이제 Amazon Q Developer는 문제를 설명하고 적절한 ML 모델 유형을 권장합니다. 또한 필요한 데이터세트 특성을 비롯하여 솔루션 요구 사항을 간략하게 설명합니다. 그러면 Amazon Q Developer에서 데이터세트 업로드를 원하는지 또는 대상 열 선택을 원하는지 묻습니다. 데이터세트를 업로드하도록 선택하겠습니다.

다음 단계에서 Amazon Q Developer는 주택, 현재 주택 가격 및 회귀 모델의 대상 변수에 대한 관련 정보를 포함하는 데이터세트 요구 사항을 나열합니다. 그런 다음, 데이터세트 업로드를 원함, 기존 데이터세트 선택, 새 데이터세트 생성, 대상 열 선택을 원함 등의 다음 단계를 권장했습니다. 이 데모에서는 canvas-sample-housing.csv 샘플 데이터세트를 기존 데이터세트로 사용하겠습니다.

select_an_existing_dataset

Amazon Q Developer는 데이터세트를 선택해서 로드한 후 데이터세트를 분석하여 median_house_value를 회귀 모델의 대상 열로 제안합니다. “median_house_value” 열을 예측하고 싶음을 선택하여 수락합니다. 다음 단계로 넘어가면 Amazon Q Developer에서 median_house_value를 예측하는 데 사용할 데이터세트 특성(예: “location”, “housing_median_age” 및 “total_rooms”)을 자세히 설명합니다.

모델 훈련을 진행하기 전에 데이터 품질에 대해 질문하겠습니다. 양질의 데이터가 없으면 신뢰할 수 있는 모델을 빌드할 수 없기 때문입니다. Amazon Q Developer는 전체 데이터세트에 대한 품질 인사이트로 응답합니다.

데이터 품질을 더 효과적으로 이해하기 위해 개별 특징과 분포에 대해 구체적인 질문을 할 수 있습니다.

데이터세트의 열

놀랍게도 위의 질문을 통해 “가구” 열의 극단값 간 편차가 크며, 이는 모델의 예측 정확도에 영향을 미칠 수 있다는 사실을 알게 되었습니다. 따라서 Amazon Q Developer에게 이 이상값 문제를 해결해 달라고 요청하겠습니다.

변환이 완료된 후 이러한 변경을 하기 위해 어떤 단계를 따랐는지 Amazon Q Developer에 물어볼 수 있습니다. Amazon Q Developer는 이면에서 SageMaker Canvas 데이터 준비 기능을 사용하여 고급 데이터 준비 단계를 적용합니다. 이를 통해 단계를 검토하고 확인할 수 있으므로 프로세스를 시각화하고 복제하여 모델 학습을 위해 준비된 최종 데이터세트를 얻을 수 있습니다.

데이터 준비 단계를 검토한 후 훈련 작업 시작을 선택합니다.

훈련 작업 시작

훈련 작업이 시작된 후 대화에서 진행 상황과 생성된 데이터세트를 볼 수 있습니다.

데이터 과학자인 저는 Amazon Q Developer를 통해 분류 모델의 혼동 행렬 및 정밀도 재현율 점수, 회귀 모델에 대한 평균 제곱근 오차(RMSE) 등의 세부 지표를 볼 수 있다는 점에 특히 만족합니다. 이러한 지표는 제가 모델 성능을 평가하고 데이터를 기반으로 결정을 내릴 때 항상 찾아보는 중요한 요소입니다. 기술 팀이 필요로 하는 깊이를 유지하면서 신뢰를 구축하고 적절한 거버넌스를 지원하기 위해 기술 전문가가 아닌 사용자도 액세스할 수 있는 방식으로 이러한 요소가 제시되는 것을 보니 신선하게 느껴집니다.

내 모델 또는 Amazon Q 대화 메뉴에서 새로운 모델을 선택하여 이러한 지표에 액세스할 수 있습니다.

  • 개요 – 이 탭에는 열 영향 분석이 표시됩니다. 이 경우 median_income이 내 모델에 영향을 미치는 주요 요인으로 떠오릅니다.
  • 점수 – 이 탭은 RMSE 지표를 비롯한 모델 정확도 인사이트를 제공합니다.
  • 고급 지표 – 이 탭에는 심층적인 모델 평가를 위한 상세한 지표 테이블, 잔차오류 밀도가 표시됩니다.

내 모델 분석

이러한 지표를 검토하고 모델의 성능을 검증한 후 ML 워크플로의 마지막 단계로 넘어갈 수 있습니다.

  • 예측예측 탭을 사용하여 모델을 테스트하여 실제 성능을 검증할 수 있습니다.
  • 배포 – 엔드포인트 배포를 생성하여 모델을 프로덕션 환경에서 사용할 수 있도록 할 수 있습니다.

이를 통해 기존에는 상당한 DevOps 지식이 필요한 단계였던 배포 프로세스가 비즈니스 분석가가 확신을 바탕으로 처리 가능한 간단한 작업으로 간소화할 수 있습니다.

예측 및 배포

알아야 할 사항
Amazon Q Developer는 조직 전반에 걸쳐 ML을 대중화합니다.

ML로 모든 기술 수준 강화 – 이제 SageMaker Canvas에서 Amazon Q Developer를 사용할 수 있으므로, ML 경험이 없는 비즈니스 분석가, 마케팅 분석가 및 데이터 전문가가 안내식 ML 워크플로를 통해 비즈니스 문제에 대한 솔루션을 생성할 수 있습니다. 데이터 분석 및 모델 선택부터 배포에 이르기까지 사용자는 자연어를 사용하여 비즈니스 문제를 해결함으로써 데이터 과학자와 같은 ML 전문가에 대한 의존도를 줄이고 조직이 시장 출시 시간을 단축하면서 더 빠르게 혁신하도록 지원할 수 있습니다.

ML 워크플로 간소화 – SageMaker Canvas에서 Amazon Q Developer를 사용할 수 있으므로 사용자는 자연스러운 안내식 워크플로를 통해 데이터를 준비하고 ML 모델을 빌드, 분석 및 배포할 수 있습니다. Amazon Q Developer는 ML을 대중화하고 ML 전문가가 아닌 사람도 매우 정확한 ML 모델을 생성할 수 있도록 하는 고급 데이터 준비 및 AutoML 기능을 제공합니다.

ML 워크플로에 대한 완전한 가시성 제공 – Amazon Q Developer는 데이터 변환 단계, 모델 설명 가능성 및 정확도 측정과 같은 기본 코드 및 기술 아티팩트를 생성하여 완전한 투명성을 제공합니다. 따라서 ML 전문가를 비롯한 여러 부서원으로 구성된 팀이 필요에 따라 모델을 검토, 검증 및 업데이트하여 안전한 환경에서 협업을 촉진할 수 있습니다.

가용성 – Amazon Q Developer가 이제 Amazon SageMaker Canvas에서 평가판 릴리스로 출시되었습니다.

요금Amazon Q Developer Pro 티어Amazon Q Developer 프리 티어 사용자 모두가 이제 SageMaker Canvas에서 Amazon Q Developer를 이용할 수 있습니다. 하지만 SageMaker Canvas 작업 공간 인스턴스, 모델 빌드 또는 배포에 사용되는 모든 리소스 등의 리소스에는 표준 요금이 적용됩니다. 자세한 요금 정보는 Amazon SageMaker Canvas 요금을 참조하세요.

시작하는 방법에 대해 자세히 알아보려면 Amazon Q Developer 제품 웹 페이지를 참조하세요.

Eli