Amazon Web Services 한국 블로그
차세대 Amazon SageMaker 및 Amazon DataZone에서 데이터 카달로그 정식 출시
오늘 2024년 6월 평가판 릴리스에 이어 Amazon DataZone의 데이터 계보를 정식 출시했다는 소식을 발표하게 되어 기쁩니다. 또한 이 기능은 데이터, 분석 및 AI를 위한 통합 플랫폼인 차세대 Amazon SageMaker에서 카탈로그 기능의 일부로 확장되었습니다.
전통적으로 비즈니스 분석가들은 데이터 오리진을 검증하기 위해 수동 문서화 또는 개인 연결에 의존해 왔기 때문에 프로세스에 일관성이 없고 시간이 많이 걸렸습니다. 데이터 엔지니어는 특히 셀프 서비스 분석 채택이 증가함에 따라 변경이 데이터 자산에 미치는 영향을 평가하는 문제로 고심해 왔습니다. 또한 데이터 거버넌스 팀은 관행을 적용하고 데이터 이동에 대한 감사자 질문에 응답하는 데 어려움을 겪었습니다.
Amazon DataZone의 데이터 계보는 데이터를 전략적 분석에 사용하여 경쟁력을 유지하기 위해 노력하는 조직이 직면한 문제를 해결합니다. 시각적이고 추적 가능한 데이터 자산 기록을 제공하여 데이터 신뢰와 검증을 향상시키므로 비즈니스 분석가는 수동 조사 없이 데이터 오리진을 빠르게 이해할 수 있습니다. 데이터 엔지니어의 경우 자산 간의 관계를 명확하게 보여주고 데이터 흐름을 쉽게 추적할 수 있게 해주므로 영향 분석 및 문제 해결을 촉진합니다.
이 기능은 데이터 이동에 대한 포괄적인 뷰를 제공하여 데이터 거버넌스 및 규정 준수 활동을 지원하므로 거버넌스 팀이 규정 준수 쿼리에 신속하게 응답하고 데이터 정책을 적용할 수 있도록 지원합니다. 데이터 검색 및 이해를 향상시켜 소비자가 데이터 자산의 컨텍스트와 관련성을 보다 효율적으로 파악할 수 있도록 도와줍니다. 또한 데이터 계보는 변경 관리 개선, 데이터 관련 지식 향상, 데이터 중복 감소, 팀 간 협업 강화에 기여합니다. Amazon DataZone의 데이터 계보는 이러한 문제를 해결함으로써 조직이 더 신뢰할 수 있고 효율적이며 규정을 준수하는 데 데이터 생태계를 구축하도록 지원하여 궁극적으로 더 효과적인 데이터 기반 의사 결정을 가능하게 합니다.
자동 계보 캡처는 AWS Glue와 Amazon Redshift에서 계보 정보를 자동으로 수집하고 매핑하는 데 중점을 둔 Amazon DataZone 데이터 계보의 주요 기능입니다. 이러한 자동화는 정확한 최신 계보 정보를 유지하는 데 필요한 수작업을 크게 줄여줍니다.
Amazon DataZone에서 데이터 계보 시작하기
데이터 생산자와 도메인 관리자는 먼저 AWS Glue Data Catalog 및 Amazon Redshift 소스에 대한 데이터 소스 실행 작업을 Amazon DataZone으로 설정하여 소스 카탈로그에서 메타데이터를 주기적으로 수집합니다. 또한 데이터 생산자는 스케줄러, 웨어하우스, 분석 도구, SQL 엔진과 같은 기존 파이프라인 구성 요소에서 OpenLineage 호환 이벤트를 수락하는 API를 사용하여 사용자 지정 계보 노드를 생성함으로써 프로그래밍 방식으로 계보 정보를 하이드레이트하여 데이터 세트, 작업 및 실행에 대한 데이터를 Amazon DataZone API 엔드포인트로 직접 전송할 수 있습니다. 이 정보가 전송되면 Amazon DataZone은 계보 모델을 채우기 시작하고 이미 카탈로그화된 자산에 매핑합니다. 새 계보 이벤트가 캡처되면 Amazon DataZone은 이미 캡처된 이벤트 버전을 유지하므로 사용자는 필요한 경우 이전 버전으로 이동할 수 있습니다.
소비자 관점에서 볼 때 계보는 세 가지 시나리오에서 도움이 될 수 있습니다. 먼저, 자산을 탐색하는 비즈니스 분석가는 Amazon DataZone 포털로 이동하여 이름으로 자산을 검색하고 관심 있는 자산을 선택하여 세부 정보를 살펴볼 수 있습니다. 처음에는 비즈니스 메타데이터 탭에 세부 정보가 표시되어 바로 인접한 탭으로 이동합니다. 분석가는 계보를 보려면 계보 탭에서 업스트림 노드의 세부 정보를 보고 소스를 찾을 수 있습니다. 분석가에게는 1단계 업스트림 및 다운스트림으로 구성된 해당 자산의 계보가 표시됩니다. 소스를 얻으려면 분석가는 업스트림을 선택하여 자산의 소스에 접근할 수 있습니다. 분석가는 올바른 자산이라고 확신하면 자산을 구독하고 작업을 계속할 수 있습니다.
두 번째, 예를 들어 대시보드에 고객 수가 예기치 않게 크게 증가한 경우와 같이 데이터 문제가 보고되면 데이터 엔지니어는 Amazon DataZone 포털을 사용하여 관련 자산 세부 정보를 찾아 검토할 수 있습니다. 데이터 엔지니어는 자산 세부 정보 페이지에서 계보 탭으로 이동하여 해당 자산의 업스트림 노드의의 세부 정보를 확인합니다. 엔지니어는 각 노드의 세부 정보, 노드의 스냅샷, 각 테이블 노드 간의 열 매핑, 그 사이에 실행된 작업을 자세히 살펴보고 작업 실행 시 실행된 쿼리를 볼 수 있습니다. 데이터 엔지니어는 이 정보를 사용하여 파이프라인에 새 입력 테이블이 추가되었고 이로 인해 고객 수가 증가했음을 확인할 수 있습니다. 이 새 테이블이 작업 실행의 이전 스냅샷의 일부가 아니었기 때문입니다. 따라서 새 소스가 추가되었고 이런 이유로 대시보드에 표시된 데이터가 정확하다는 것을 명확히 할 수 있습니다.
마지막으로, 감사자의 질문에 답변하려는 스튜어드는 해당 자산으로 이동하여 자산의 계보 탭으로 이동할 수 있습니다. 스튜어드는 그래프 업스트림을 탐색하여 데이터의 소스가 어디인지 확인하고, 파이프라인이 병합되는 지점에 도달할 때까지 각자 자체 파이프라인을 보유한 다른 두 팀(예를 들어, 다른 두 온프레미스 데이터베이스 팀)이 데이터의 소스임을 알아차립니다. 계보 그래프를 살펴보면서 스튜어드는 열을 확장하여 변환 프로세스 중에 민감한 열이 삭제되는지 확인하고 감사자에게 적시에 세부 정보를 가지고 응답할 수 있습니다.
Amazon DataZone이 계보 수집을 자동화하는 방법
이제 Amazon DataZone은 계보 이벤트의 자동 캡처를 지원하므로 데이터 생산자와 관리자가 AWS Glue 및 Amazon Redshift 리소스 전반에서 데이터 관계 및 변환을 추적하는 작업을 간소화하도록 돕습니다. AWS Glue 및 Amazon Redshift에서 계보 이벤트를 자동으로 캡처하려면 일부 작업 또는 연결은 테스트용일 수 있고 계보를 캡처할 필요가 없을 수도 있기 때문에 옵트인해야 합니다. 통합 환경을 사용할 수 있으면 서비스는 구성 설정에서 계보 이벤트를 수집하여 Amazon DataZone으로 직접 내보내도록 선택할 수 있는 옵션을 제공합니다.
이러한 이벤트는 열 정의를 사용한 테이블 생성, 스키마 변경, 집계 및 필터링을 포함한 변환 쿼리와 같이 테이블 및 기타 객체에 수행하는 다양한 데이터 변환 작업을 캡처해야 합니다. Amazon DataZone은 처리 엔진에서 직접 이러한 계보 이벤트를 획득하여 정확하고 일관된 데이터 계보 정보의 기반을 구축할 수 있습니다. 이를 통해 데이터 생산자는 더 광범위한 비즈니스 데이터 카탈로그 기능의 일부로 계보 데이터를 추가로 선별할 수 있습니다.
관리자는 내장 DefaultDataLake 또는 DefaultDataWarehouse 블루프린트를 설정할 때 계보를 활성화할 수 있습니다.
데이터 생산자는 데이터 소스 실행을 설정하는 동안 자동화된 계보의 상태를 볼 수 있습니다.
차세대 Amazon SageMaker가 최근에 출시되면서 Amazon SageMaker Unified Studio(평가판)에서 카탈로그 기능 중 하나로 데이터 계보가 제공됩니다. 데이터 사용자는 연결을 사용하여 계보를 설정할 수 있으며, 해당 구성은 모든 사용자가 데이터를 탐색하고 이해할 수 있도록 플랫폼에서 계보 캡처를 자동화합니다. 차세대 Amazon SageMaker의 데이터 계보는 다음과 같은 모습입니다.
정식 출시
이 기능을 사용하여 데이터 생태계에 대한 보다 심층적인 통찰력을 얻고 보다 정보에 입각한 데이터 기반 의사 결정을 내릴 수 있습니다.
데이터 계보는 Amazon DataZone이 정식 출시된 모든 AWS 리전에서 상용 버전으로 사용할 수 있습니다. Amazon DataZone 도메인을 프로비저닝할 수 있는 리전 목록은 리전별 AWS 서비스를 참조하세요.
데이터 계보 비용은 Amazon DataZone 요금 모델에 이미 포함된 스토리지 사용량 및 API 요청에 따라 달라집니다. 자세한 내용은 Amazon DataZone 요금을 참조하세요.
Amazon DataZone의 데이터 계보를 시작하려면 Amazon DataZone 사용 설명서를 참조하세요.