AWS Clean Rooms, 멀티 클라우드 및 데이터 소스 지원

오늘은 AWS Clean Rooms 데이터 공동 작업을 위한 새로운 소스로 Snowflake 및 Amazon Athena를 지원한다는 소식을 발표합니다. AWS Clean Rooms는 고객과 그 파트너가 서로의 기본 데이터를 공유 또는 복사하지 않고도 집합 데이터세트를 더 원활하고 안전하게 분석할 수 있도록 지원합니다. 이 개선을 통해 소스 데이터를 이동하거나 공개하지 않고도 Snowflake에 저장된 데이터세트 또는 AWS Lake Formation 권한, AWS Glue Data Catalog 뷰와 같은 Athena 기능을 통해 쿼리 가능한 데이터세트를 사용하여 공동 작업을 수행할 수 있습니다.

연구 개발, 투자 또는 마케팅 및 광고 캠페인에 대한 인사이트를 얻기 위해 파트너와 공동 작업을 통해 데이터세트를 분석해야 하는 경우가 많습니다. 파트너의 데이터세트가 Amazon Simple Storage Service(Amazon S3) 외부에서 저장 또는 관리되는 경우가 있는데, 기업은 데이터 이동 또는 복사와 관련된 복잡성, 비용, 규정 준수 위험, 지연을 줄이거나 제거하기를 원합니다. 또한 기업은 데이터를 복제하면 오래된 정보를 사용하게 되어 획득한 인사이트의 질이 떨어질 수 있다는 사실을 알고 있습니다.

이번 출시는 기업은 AWS Clean Rooms 공동 작업에서 추출, 변환, 로드 없이(제로 ETL) 최신 상태의 집합 데이터세트를 사용하여 공동 작업할 수 있도록 지원합니다. 따라서 기존 환경 외부로 데이터세트를 마이그레이션하는 데 따른 비용 및 복잡성이 배제됩니다. 예를 들어 Amazon S3에 데이터를 저장하는 광고주와 Snowflake에 데이터를 저장하는 미디어 퍼블리셔는 ETL 데이터 파이프라인을 구축하거나 기본 데이터를 공유할 필요 없이 잠재 고객 중복 분석을 실행하여 집합 데이터세트에 존재하는 사용자의 비율을 확인할 수 있습니다. 공동 작업 프로세스 중에는 외부 데이터 소스의 기본 데이터가 AWS Clean Rooms에 영구적으로 저장되지 않으며, AWS Clean Rooms 분석 환경으로 임시로 읽어 들인 데이터는 쿼리 완료 시 모두 삭제됩니다. 이제 데이터가 어디에 저장되어 있든 관계없이 파트너와 함께 작업하여 인사이트를 생성하는 프로세스를 간소화할 수 있습니다.

이 기능을 사용하는 방법을 보여드리겠습니다.

AWS Clean Rooms에서 여러 클라우드 및 데이터 소스를 사용하는 방법
이 기능을 설명하기 위해 광고주인 A사와 퍼블리셔인 B사 사이의 시나리오를 사용합니다. A사는 광고 캠페인을 실행하기 전에 B사의 웹 사이트에서 가치가 높은 사용자 중 몇 명에게 도달할 수 있는지 알고 싶어합니다. A사는 데이터를 Amazon S3에 저장합니다. B사는 데이터를 Snowflake에 저장합니다. AWS Clean Rooms를 사용하려면 양 당사자가 각각 AWS 계정을 보유하고 있어야 합니다.

이 데모에서는 광고주 A사가 공동 작업 생성자입니다. A사는 AWS Clean Rooms 공동 작업을 생성하고 Snowflake에 호스팅된 데이터를 보유한 B사를 공동 작업에 초대합니다. AWS Clean Rooms 정식 출시 발표 블로그 게시물에서 설명하는 단계에 따라 공동 작업을 생성할 수 있습니다.

다음으로 퍼블리셔 B사가 어떻게 AWS Clean Rooms에서 구성된 테이블을 생성하여 Snowflake를 데이터 소스로 지정하고 Secrets Manager Amazon 리소스 이름(ARN)을 제공하는지 보여드리겠습니다. AWS Secrets Manager를 사용하면 수명 주기 전반에 걸쳐 데이터베이스 자격 증명과 같은 시크릿을 관리, 검색, 교체할 수 있습니다. 시크릿에는 공동 작업하려는 데이터에 대한 읽기 전용 권한이 있는 Snowflake 사용자의 자격 증명이 보관되어야 합니다. AWS Clean Rooms는 이를 사용하여 시크릿을 읽고 Snowflake에 저장된 데이터에 액세스할 수 있습니다. 시크릿 생성에 대한 단계별 지침은 Secrets Manager 설명서를 참조하세요.

B사의 AWS 계정을 사용하여 AWS Clean Rooms 콘솔로 이동하고 Configured resources 아래에서 Tables를 선택합니다. Configure new table을 선택합니다. Third-party clouds and data sources 아래에서 Snowflake를 선택합니다. 공동 작업하려는 Snowflake에 저장된 데이터세트에 대한 읽기 권한이 있는 역할의 Snowflake 자격 증명을 보관하는 시크릿에 대해 Secret ARN에 입력합니다. 이는 Snowflake 테이블 및 스키마에 액세스하려는 엔티티의 ID를 확인하는 데 사용하는 자격 증명입니다. 시크릿 ARN이 없는 경우 Store a new secret for this table 옵션을 사용하여 새 시크릿을 생성할 수 있습니다.

테이블 및 스키마 세부 정보를 정의하기 위해 Import from file 옵션을 사용하고 Snowflake에서 내보낸 열 보기 정보 스키마 CSV 파일을 선택하여 정보를 채웁니다. 정보를 수동으로 입력할 수도 있습니다.

이 데모에서는 Columns allowed in collaborations 아래에서 All columns를 선택합니다. 다음으로 Configure new table을 선택합니다.

구성된 테이블로 이동하여 쿼리 생성이 허용된 AWS 계정, 쿼리에 사용할 수 있는 열 등 테이블 세부 정보를 살펴봅니다. 이 페이지에서 테이블 이름, 설명, 분석 규칙을 편집할 수 있습니다.

공동 작업 분석을 위해 AWS Clean Rooms에서 사용할 테이블을 구성하는 과정에서 분석 규칙을 구성해야 합니다. 분석 규칙은 각 데이터 소유자가 구성된 테이블에 설정하는 프라이버시 강화 제어 기능입니다. 분석 규칙은 구성된 테이블을 분석할 수 있는 방법을 결정합니다. Configure analysis rule을 선택하여 구성된 테이블에서 사용자 지정 쿼리를 실행할 수 있는 사용자 지정 분석 규칙을 구성합니다.

1단계에서는 선택을 진행합니다. JSON 편집기를 사용하여 분석 규칙 정의를 JSON 형식으로 생성하거나 붙여 넣거나 가져올 수 있습니다. Next를 선택합니다.

2단계에서는 Analyses for direct querying 아래에서 Allow any queries created by specific collaborators to run without review on this table을 선택합니다. 이 옵션을 사용하면 허용된 계정 목록에 지정한 AWS 계정에서 제공한 쿼리만 테이블에서 실행할 수 있습니다. 허용된 계정에서 생성된 모든 분석 템플릿은 검토 없이 이 테이블에서 자동으로 실행될 수 있습니다. AWS account ID 아래에서 허용된 계정을 선택한 다음 Next를 선택합니다.

3단계에서는 선택을 진행합니다. Columns not allowed in output 아래에서 None을 선택하여 모든 열이 쿼리 출력에 표시되도록 합니다. Additional analyses applied to output 아래에서 Not allowed를 선택합니다. 그러면 이 테이블에서 추가 분석을 실행할 수 없습니다. Next를 선택합니다.

마지막 단계에서는 구성을 검토하고 Configure analysis rule을 선택합니다.

다음으로 Associate to collaboration을 사용하여 테이블과 생성된 공동 작업(광고주 A사)을 연결합니다.

팝업 창에서 멤버십이 활성화된 공동 작업 중 하나를 선택하고 Choose collaboration을 선택합니다.

다음 페이지에서 Configured table name을 선택하고 Table associations details 아래에서 Name에 이름을 입력합니다. 테이블을 AWS Clean Rooms가 쿼리 권한을 부여하도록 승인하는 방법을 선택합니다. Associate table을 선택합니다.

광고주 A사와 퍼블리셔 B사는 이제 잠재 고객 중복 분석을 실행하여 서로의 원시 데이터에 액세스하지 않고도 집합 데이터세트에 있는 사용자의 비율을 확인할 수 있습니다. 분석을 통해 퍼블리셔가 광고주의 잠재 고객에게 도달할 수 있는 범위를 결정할 수 있습니다. 광고주는 중복을 평가하여 퍼블리셔가 고유한 도달 범위를 제공하는지 또는 퍼블리셔의 잠재 고객이 광고주의 기존 잠재 고객과 상당히 겹치는지 확인할 수 있습니다. 이때 어느 당사자도 소스 데이터를 이동하거나 공유할 필요가 없습니다. 이제 A사의 계정으로 전환하고 AWS Clean Rooms 콘솔로 이동합니다. 생성한 공동 작업을 선택하고 다음 쿼리를 실행하여 잠재 고객 중복 분석 결과를 얻습니다.

select count (distinct emailaddress)
from customer_data_example as advertiser
inner join synthetic_customer_data  as publisher
on 'emailaddress' = 'publisher_hashed_email_address'

이 예에서는 Snowflake를 데이터 소스로 사용했습니다. AWS Lake Formation 권한을 따르면서 Athena를 사용하여 이 데이터에 대한 쿼리를 실행할 수도 있습니다. 그러면 Lake Formation의 세분화된 액세스 제어를 통해 행 및 열 수준의 필터링을 수행하고 AWS Glue Data Catalog 뷰를 사용하여 데이터를 변환한 후 데이터세트를 공동 작업에 연결할 수 있습니다.

고객 및 파트너 의견
“세계 최초의 여행자 미디어 네트워크인 Kinective Media by United Airlines에서는 데이터 보안과 개인 정보 보호가 필수적입니다”라고 Kinective Media by United Airlines 전략 파트너십 담당 이사 Khatidja Ajania는 말합니다. “AWS Clean Rooms는 여러 클라우드 및 AWS 소스의 소스 데이터를 지원하므로 당사는 더 많은 브랜드와 안전하고 원활하게 협력하여 폐쇄 루프 측정 및 기타 주요 사용 사례를 제공할 수 있습니다. 이번 개선으로 광고주 및 파트너와의 프라이버시가 강화된 공동 작업을 통해 수백만 United 여행자에게 개인화된 경험, 콘텐츠 및 관련 상품을 더 쉽게 안전하게 제공할 수 있을 것입니다.”

“Snowflake에서는 데이터 클린 룸 기술을 사용할 때 기술 스택 전반의 소스 데이터 상호 운용성에 따른 문제를 인식하고 있습니다. 당사는 사용자가 선택한 솔루션을 통해 안전하고 효과적으로 데이터 파트너십의 잠재력을 최대한 활용할 수 있도록 지원한다는 공동의 목표를 향해 한 걸음 더 나아가는 진전을 보게 되어 기쁘게 생각합니다.” – Kamakshi Sivaramakrishnan, Snowflake Data Clean Rooms General Manager

정식 출시
Snowflake와 Athena를 AWS Clean Rooms의 데이터 소스로 지원하면 교차 클라우드 공동 작업에 상당한 이점이 있습니다. 이번 출시로 클라우드 및 데이터 소스 전반에서 데이터를 이동할 필요가 없어지고 공동 작업 프로세스가 간소화됩니다. 이는 고객이 데이터 저장 위치에 관계없이 민감한 정보를 보호하면서 파트너와 안전하게 공동 작업을 수행할 수 있는 방법을 확장하기 위한 노력의 첫 단계입니다.

지금 AWS Clean Rooms를 시작해보세요. 여러 데이터 소스를 사용한 공동 작업에 대해 자세히 알아보려면 AWS Clean Rooms 설명서를 참조하세요.

– Esra

Amazon Web Services 한국 블로그

AWS Clean Rooms, 멀티 클라우드 및 데이터 소스 지원

주요 링크 모음

팔로우하기

알아보기

리소스

개발자

도움말