Amazon Web Services 한국 블로그

AWS Clean Rooms, ML 모델 학습을 위한 개인정보 보호 데이터 생성 기능 출시

오늘은 AWS Clean Rooms를 위한 개인 정보 보호 강화 합성 데이터세트 생성 기능을 발표합니다. 이 새로운 기능은 조직과 파트너가 회귀 및 분류 기계 학습(ML) 모델을 훈련시키기 위해 집합 데이터에서 개인 정보 보호 강화 합성 데이터세트를 생성하는 데 사용할 수 있습니다. 이 기능을 사용하면 모델이 원본 레코드에 액세스할 필요 없이 원본 데이터의 통계적 패턴을 보존하는 합성 훈련 데이터세트를 생성할 수 있으므로, 이전에는 개인 정보 보호 문제로 인해 불가능했던 모델 훈련을 위한 새로운 기회를 열 수 있습니다.

ML 모델을 구축할 때 데이터 과학자와 분석가는 일반적으로 데이터 유틸리티와 개인 정보 보호 사이의 근본적인 긴장에 직면합니다. 추세를 파악하고, 경험을 개인화하고, 비즈니스 성과를 창출할 수 있는 정확한 모델을 훈련시키려면 고품질의 세분화된 데이터에 대한 액세스가 필수적입니다. 그러나 여러 당사자의 사용자 수준 이벤트 데이터와 같은 세분화된 데이터를 사용하면 심각한 개인 정보 보호 문제와 규정 준수 문제가 발생합니다. 조직은 “고객 전환 가능성이 높은 특징을 나타내는 특징은 무엇인가?”와 같은 질문에 답하고자 합니다. 그러나 개인 수준의 신호에 대한 훈련은 종종 개인 정보 보호 정책 및 규제 요구 사항과 상충됩니다.

사용자 지정 ML을 위한 개인 정보 보호 강화 합성 데이터세트 생성
이 문제를 해결하기 위해, AWS Clean Rooms ML에 개인 정보 보호 강화 합성 데이터세트 생성을 도입하고 있습니다. 조직은 이를 사용하여 ML 모델 훈련에 보다 안전하게 사용할 수 있는 민감한 데이터세트의 합성 버전을 생성할 수 있습니다. 이 기능은 고급 ML 기술을 사용하여 원본 데이터의 통계적 속성을 유지하는 동시에 원본 소스 데이터에서 주제를 식별하지 않는 새로운 데이터세트를 생성합니다.

마스킹과 같은 기존의 익명화 기법으로는 여전히 데이터세트에서 개인을 재식별할 위험이 있습니다. 우편 번호, 생년월일과 같은 개인에 대한 속성을 아는 것만으로도 인구 조사 데이터로 개인을 식별할 수 있습니다. 개인 정보 보호 강화 합성 데이터세트 생성은 근본적으로 다른 접근 방식을 통해 이러한 위험을 해결합니다. 시스템은 원본 데이터세트의 필수 통계 패턴을 학습한 다음 원본 데이터셋에서 값을 샘플링하고 이 모델을 사용하여 예측값 열을 예측하는 방식으로 종합 레코드를 생성하는 모델을 훈련시킵니다. 시스템은 단순히 원본 데이터를 복사하거나 교란하는 대신 모델 용량 감소 기법을 사용하여 모델이 훈련 데이터에 있는 개인에 대한 정보를 기억하게 될 위험을 완화합니다. 생성된 합성 데이터세트는 원본 데이터와 동일한 스키마 및 통계적 특성을 가지므로 훈련 분류 및 회귀 모델에 적합합니다. 이 접근 방식은 재식별 위험을 정량적으로 줄입니다.

이 기능을 사용하는 조직은 적용되는 노이즈의 양과 공격자가 특정 개인의 데이터가 훈련 세트에 포함되었는지 여부를 확인하려고 시도하는 멤버십 추론 공격에 대한 보호 수준을 비롯한 개인 정보 보호 매개변수를 제어할 수 있습니다. AWS Clean Rooms는 합성 데이터세트를 생성한 후 고객과 규정 준수 팀이 원본 데이터에 대한 충실도와 개인 정보 보호라는 두 가지 중요한 차원에서 합성 데이터세트의 품질을 이해하는 데 도움이 되는 세부 지표를 제공합니다. 충실도 점수는 KL-divergence를 사용하여 합성 데이터가 원본 데이터세트와 얼마나 유사한지를 측정하고, 개인 정보 보호 점수는 데이터세트가 멤버십 추론 공격으로부터 보호될 가능성을 수치화합니다.

AWS Clean Rooms에서의 합성 데이터 사용
개인 정보 보호 강화 합성 데이터세트 생성을 시작하는 과정은 AWS Clean Rooms ML 사용자 지정 모델 워크플로를 따르며, 개인 정보 보호 요구 사항을 지정하고 품질 지표를 검토하는 새로운 단계가 포함되었습니다. 조직은 먼저 선호하는 데이터 소스를 사용하여 분석 규칙이 포함된 구성된 테이블을 만든 다음, 파트너와 협업에 참여하거나 협업을 생성하고 테이블을 해당 협업에 연결합니다.

새로운 기능에는 데이터 소유자가 데이터세트를 생성하는 SQL 쿼리를 정의할 뿐만 아니라 결과 데이터셋이 합성되어야 한다고 지정하는 향상된 분석 템플릿이 도입되었습니다. 조직은 이 템플릿 내에서 열을 분류하여 ML 모델이 어떤 열을 예측할지, 그리고 어떤 열에 범주형 값 및 숫자 값이 포함되었는지 나타냅니다. 중요한 것은, 템플릿에는 생성된 합성 데이터를 훈련에 사용할 수 있도록 충족해야 하는 개인 정보 보호 임계값도 포함되어 있습니다. 여기에는 재식별을 방지하기 위해 합성 데이터에 얼마나 많은 노이즈가 있어야 하는지를 지정하는 엡실론 값과 멤버십 추론 공격에 대한 최소 보호 점수가 포함됩니다. 이러한 기준을 적절하게 설정하려면 조직의 특정 개인 정보 보호 및 규정 준수 요구 사항을 이해해야 하며, 이 과정에서 법률 및 규정 준수 팀과 협력하는 것이 좋습니다.

모든 데이터 소유자가 분석 템플릿을 검토하고 승인한 후, 협업 구성원은 템플릿을 참조하는 기계 학습 입력 채널을 만듭니다. 그러면 AWS Clean Rooms에서 합성 데이터세트 생성 프로세스를 시작합니다. 이 프로세스는 일반적으로 데이터세트의 크기와 복잡성에 따라 몇 시간 내에 완료됩니다. 생성된 합성 데이터세트가 분석 템플릿에 정의된 필수 개인 정보 보호 임계값을 충족하는 경우, 자세한 품질 지표와 함께 합성 기계 학습 입력 채널을 사용할 수 있습니다. 데이터 사이언티스트는 시뮬레이션된 멤버십 추론 공격에 대해 실제로 달성한 보호 점수를 검토할 수 있습니다.

품질 지표에 만족하면 조직은 AWS Clean Rooms 협업 내에서 합성 데이터세트를 사용하여 ML 모델을 훈련시킬 수 있습니다. 사용 사례에 따라 훈련된 모델 가중치를 내보내거나 협업 자체 내에서 추론 작업을 계속 실행할 수 있습니다.

직접 사용해 보기
새 AWS Clean Rooms 공동 작업을 만들 때 이제 합성 데이터세트 생성 비용을 누가 지불하는지 설정할 수 있습니다.

협업을 구성한 후, 새 분석 템플릿을 생성할 때 분석 템플릿 출력이 합성되도록 요구를 선택할 수 있습니다.

합성 분석 템플릿이 준비되면, 보호된 쿼리를 실행할 때 이 템플릿을 사용하고 관련 ML 입력 채널 세부 정보를 모두 볼 수 있습니다.

Clean Rooms 합성 데이터 콘솔

지금 사용 가능
지금 바로 AWS Clean Rooms를 통해 개인 정보 보호 강화 합성 데이터세트 생성을 사용할 수 있습니다. 이 기능은 AWS Clean Rooms가 제공되는 모든 상용 AWS 리전에서 사용할 수 있습니다. AWS Clean Rooms 설명서에서 자세히 알아보세요.

개인 정보 보호 강화 합성 데이터세트 생성은 사용량에 따라 별도로 청구됩니다. 합성 데이터세트를 생성하는 데 사용한 컴퓨팅에 대해서만 비용을 지불하고 합성 데이터 생성 단위(SDGU)로 청구됩니다. SDGU의 수는 원본 데이터셋의 크기와 복잡성에 따라 달라집니다. 이 요금은 지불자 설정으로 구성할 수 있습니다. 즉, 어떤 협업 구성원이든 비용 지불에 동의할 수 있습니다. 요금에 대한 자세한 내용은 AWS Clean Rooms 요금 페이지를 참조하세요.

초기 릴리스에서는 테이블 형식 데이터에 대한 분류 및 회귀 모델 훈련을 지원합니다. 합성 데이터세트는 표준 ML 프레임워크와 함께 작동하며 워크플로를 변경하지 않고도 기존 모델 개발 파이프라인에 통합할 수 있습니다.

이 기능은 개인 정보 보호 강화 기계 학습의 상당한 발전을 나타냅니다. 조직은 개별 사용자에 대한 민감한 정보가 유출될 위험을 줄이면서 모델 훈련을 위해 민감한 사용자 수준 데이터의 가치를 활용할 수 있습니다. 광고 캠페인을 최적화하든, 보험 견적을 개인화하든, 사기 탐지 시스템을 강화하든, 개인 정보 보호를 강화하는 합성 데이터세트 생성을 사용하면 개인의 개인 정보 보호를 존중하면서 데이터 협업을 통해 더 정확한 모델을 훈련시킬 수 있습니다.

– Micah