Amazon Web Services 한국 블로그
Amazon DataZone, 종합 데이터 계보 시각화 기능 소개 (미리 보기)
Amazon DataZone은 조직의 데이터 생산자와 소비자 사이에서 데이터를 분류, 검색, 분석, 공유, 관리하는 데이터 관리 서비스입니다. 엔지니어, 데이터 사이언티스트, 제품 관리자, 분석가, 비즈니스 사용자는 통합 데이터 포털을 사용하여 조직 전체의 데이터에 쉽게 액세스함으로써 데이터 기반 인사이트를 검색, 사용하고 협업을 통해 도출할 수 있습니다.
새로운 API에 기반하고 OpenLineage와 호환되는 Amazon DataZone 데이터 계보 기능 미리 보기를 발표하게 되어 기쁩니다. 이 기능을 사용하면 시간 경과에 따른 데이터 이동을 종합적으로 파악할 수 있습니다. 데이터 계보는 Amazon DataZone의 새로운 기능으로, 사용자가 데이터 출처를 시각화 및 이해하고, 변경 관리를 추적하고, 데이터 오류가 보고될 때 근본 원인 분석을 수행하고, 소스에서 타겟으로의 데이터 이동에 관한 질문에 대비할 수 있도록 도와줍니다. 이 기능은 Amazon DataZone 외부에서 프로그래밍 방식으로 캡처된 다른 이벤트와 함께 Amazon DataZone 카탈로그에서 자동으로 캡처된 계보 이벤트를 자산에 연결하여 종합적으로 보여 줍니다.
관심 데이터가 조직에서 어떻게 생성되었는지 검증해야 하는 경우 수동 문서화나 인적 연결을 활용할 수 있습니다. 이러한 수동 프로세스는 시간이 많이 걸리며 불일치를 초래하여 데이터에 대한 신뢰도를 직접적으로 떨어뜨릴 수 있습니다. Amazon DataZone의 데이터 계보는 데이터의 출처, 변경 사항, 시간에 따른 소비를 이해하는 데 도움을 주어 신뢰를 높일 수 있습니다. 예를 들어 Amazon Simple Storage Service(S3)에서 원시 파일로 캡처된 시점부터 AWS Glue를 사용한 ETL 변환을 거쳐 Amazon QuickSight 같은 도구에서 소비된 시점까지 데이터를 보여 주도록 프로그래밍 방식으로 데이터 계보를 설정할 수 있습니다.
Amazon DataZone의 데이터 계보를 사용하면 데이터 자산 및 관계 매핑, 파이프라인 문제 해결 및 개발, 데이터 거버넌스 관행 적용에 소요되는 시간을 줄일 수 있습니다. 데이터 계보는 API를 사용하여 모든 계보 정보를 한곳에 수집한 다음, 데이터 사용자가 생산성 향상, 데이터 기반 의사 결정 개선, 데이터 문제 근본 원인 식별에 사용할 수 있는 그래픽 보기를 제공하는 데 도움이 됩니다.
Amazon DataZone에서 데이터 계보를 시작하는 방법을 알려 드리겠습니다. 그런 다음 데이터 계보가 데이터 자산 발생 과정에 대한 연관성을 시각적으로 표시하여 데이터 자산 검색 또는 사용 시 정보에 입각한 결정을 내릴 수 있도록 함으로써 Amazon DataZone 데이터 카탈로그 경험을 어떻게 향상시키는지 보여 드리겠습니다.
Amazon DataZone에서 데이터 계보 시작하기
미리 보기에서는 Amazon DataZone API로 계보 노드를 직접 생성하여 계보 정보를 Amazon DataZone에 프로그래밍 방식으로 하이드레이트하거나, 기존 파이프라인 구성 요소에서 OpenLineage 호환 이벤트를 전송하여 Amazon DataZone 외부에서 발생하는 데이터 이동이나 변환을 캡처하는 방법으로 시작할 수 있습니다. 카탈로그에 있는 자산에 대한 정보의 경우, Amazon DataZone은 데이터 생산자(예: 데이터 엔지니어)가 자신이 생성한 데이터를 누가 소비하는지 추적하거나 데이터 소비자(예: 데이터 분석가 또는 데이터 엔지니어)가 자신이 분석에 적합한 데이터를 사용하고 있는지 파악할 수 있도록 상태(즉 인벤토리 상태 또는 게시됨 상태)의 계보와 그 구독을 자동으로 캡처합니다.
이 정보가 전송되면 Amazon DataZone은 계보 모델을 채우기 시작하고 API를 통해 전송된 식별자를 이미 카탈로그화된 자산에 매핑할 수 있습니다. 새 계보 정보가 전송되면 모델은 특정 시점에 자산 시각화를 시작하기 위한 버전 생성을 시작하지만 이전 버전으로 이동하는 것도 가능합니다.
이 사용 사례에서는 사전 구성된 Amazon DataZone 도메인을 사용합니다. Amazon DataZone 도메인을 사용하여 데이터 자산, 사용자, 프로젝트를 구성합니다. Amazon DataZone 콘솔로 이동하여 도메인 보기를 선택합니다. Sales_Domain을 선택하고 데이터 포털 열기를 선택합니다.
도메인에는 데이터 생산자를 위한 프로젝트 1개(SalesProject)와 데이터 소비자를 위한 프로젝트 4개(MarketingTestProject, AdCampaignProject, SocialCampaignProject, WebCampaignProject) 등 모두 5개의 프로젝트가 있습니다. Amazon DataZone Now Generally Available – Collaborate on Data Projects across Organizational Boundaries를 방문하여 자체 도메인과 모든 핵심 구성 요소를 생성할 수 있습니다.
자산 검색 표시줄에 ‘Market Sales Table’을 입력한 다음 Market Sales Table 자산의 세부 정보 페이지로 이동합니다. LINEAGE 탭을 선택하여 업스트림 및 다운스트림 노드가 있는 계보를 시각화합니다.
이제 해당 자산에 연결되는 자산 세부 정보, 프로세스 또는 작업을 살펴보고 열 수준 계보를 자세히 살펴볼 수 있습니다.
데이터 계보를 사용한 대화형 시각화
Amazon DataZone과 정기적으로 상호 작용하고 데이터 계보 기능을 활용할 다양한 페르소나를 사용한 그래픽 인터페이스를 보여 드리겠습니다.
먼저, 제가 마케팅 분석가이고 확신을 갖고 분석에 사용하기 위해 데이터 자산의 출처를 확인해야 한다고 가정해 보겠습니다. MarketingTestProject 페이지로 이동하고 LINEAGE 탭을 선택합니다. 계보에는 Amazon DataZone 내부와 외부에서 발생하는 자산에 대한 정보가 포함되어 있습니다. 카탈로그화됨, 게시됨, 액세스 요청됨 레이블은 카탈로그 내의 작업을 나타냅니다. market_sales 데이터세트 항목을 확장하여 데이터의 출처를 확인합니다.
분석을 시작하기 전에 데이터 자산의 출처에 확신을 갖고 데이터 자산이 제 비즈니스 목적과 일치한다고 신뢰할 수 있습니다.
두 번째로, 제가 데이터 엔지니어라고 가정해 보겠습니다. 의도치 않은 변경을 피하려면 제 작업이 종속 객체에 미치는 영향을 파악해야 합니다. 데이터 엔지니어의 시스템 변경으로 인해 다운스트림 프로세스에 문제가 발생해서는 안 됩니다. 계보를 살펴보면 누가 자산을 구독했고 자산에 액세스할 수 있는지 명확하게 확인할 수 있습니다. 이 정보를 사용하여 프로젝트 팀에게 팀의 파이프라인에 영향을 미칠 수 있는 임박한 변경 사항을 알릴 수 있습니다. 데이터 문제가 보고되면 각 노드를 조사하고 여러 버전을 탐색하여 시간 경과에 따른 변경 사항을 분석하면 문제의 근본 원인을 파악하고 적시에 수정할 수 있습니다.
마지막으로 관리자 또는 관리인은 데이터 보안, 비즈니스 분류 체계 표준화, 데이터 관리 프로세스 수립, 일반적 카탈로그 관리를 담당합니다. 데이터 소스에 대한 세부 정보를 수집하고 그 과정에서 일어난 변환을 이해해야 합니다.
예를 들어 감사자 질문에 답변해야 하는 관리자는 데이터의 출처를 확인하기 위해 그래프 업스트림을 살펴보고 데이터 소스가 온라인 판매와 매장 판매의 두 가지임을 알 수 있습니다. 이러한 데이터 소스에는 파이프라인이 합쳐지는 지점에 흐름이 도달할 때까지 자체 파이프라인이 있습니다.
계보 그래프를 살펴보면서 열을 확장하여 변환 프로세스 중에 민감한 열이 삭제되는지 확인하고 감사자에게 적시에 세부 정보를 제공할 수 있습니다.
미리 보기 참여
데이터 계보 기능은 Amazon DataZone이 정식 출시된 모든 리전에서 미리 보기로 사용할 수 있습니다. Amazon DataZone 도메인을 프로비저닝할 수 있는 리전 목록은 리전별 AWS 서비스를 참조하세요.
데이터 계보 비용은 Amazon DataZone 요금 모델에 이미 포함된 스토리지 사용량 및 API 요청에 따라 달라집니다. 자세한 내용은 Amazon DataZone 요금을 참조하세요.
Amazon DataZone의 데이터 계보에 대해 자세히 알아보려면 Amazon DataZone 사용 설명서를 참조하세요.