Amazon Web Services ブログ

Amazon DataZone でのエンドツーエンドのデータリネージ (プレビュー) のビジュアライゼーションの導入

Amazon DataZone は、組織内のデータプロデューサーとコンシューマーの間でデータをカタログ化、検出、分析、共有、管理するためのデータ管理サービスです。エンジニア、データサイエンティスト、製品マネージャー、アナリスト、ビジネスユーザーは、統合データポータルを使用して組織全体のデータに簡単にアクセスして、データ駆動型のインサイトを検出および使用したり、そのようなインサイトを得るためにコラボレーションしたりできます。

Amazon DataZone の API 駆動型で OpenLineage 互換の新しいデータリネージ機能のプレビューを発表します。この機能は、時間の経過に合わせたデータ移動のエンドツーエンドのビューを提供します。データリネージは Amazon DataZone 内の新しい機能であり、ユーザーによるデータの出自の視覚化および理解、変更管理の追跡、データエラーが報告された際の根本原因分析の実行、ソースからターゲットへのデータ移動に関する質問への準備に役立ちます。この機能は、Amazon DataZone のカタログから自動的にキャプチャされたリネージイベントと、Amazon DataZone の外部でプログラムによってキャプチャされた他のイベントをつなぎ合わせてアセットとしてまとめた包括的なビューを提供します。

組織内で関心のあるデータがどのように生成されたかを検証する必要がある場合、手動のドキュメントや関係者への確認に依拠することがあります。この手動プロセスは時間がかかり、不整合が生じる可能性があるため、データの信頼性が直接的に低下します。Amazon DataZone のデータリネージは、データの生成元、変更方法、および時間の経過に伴う利用を把握できるようにすることで、信頼性を高めることができます。例えば、データリネージは、Amazon Simple Storage Service (Amazon S3) で生のファイルとしてキャプチャされた時点から、AWS Glue を利用した ETL 変換を経て、Amazon QuickSight などのツールで利用された時点までのデータを表示するようにプログラムで設定できます。

Amazon DataZone のデータリネージを使用すると、データアセットとその関係のマッピング、パイプラインのトラブルシューティングと開発、およびデータガバナンスプラクティスのアサーションにかかる時間を短縮できます。データリネージは、API を使用してすべてのリネージ情報を 1 か所に集約して、データユーザーの生産性を高め、データ駆動型のより適切な意思決定を行い、データの問題の根本原因を特定するためのグラフィカルビューを提供するのに役立ちます。

Amazon DataZone でデータリネージの使用を開始する方法を説明します。その後、データアセットがどのように作成されたかというつながりを視覚的に表示し、そのデータアセットを検索または使用する際に十分な情報に基づいた意思決定を行えるようにすることで、データリネージが Amazon DataZone データカタログエクスペリエンスをどのように強化するのかを説明します。

Amazon DataZone でのデータリネージの開始方法
プレビューでは、Amazon DataZone API を使用してリネージノードを直接作成するか、既存のパイプラインコンポーネントから OpenLineage 互換イベントを送信して Amazon DataZone の外部で発生するデータの移動または変換をキャプチャすることにより、プログラムで Amazon DataZone にリネージ情報をハイドレートすることから開始できます。カタログ内のアセットに関する情報については、Amazon DataZone は、アセットの状態 (すなわち、インベントリや公開状態など) とサブスクリプションのリネージを自動的にキャプチャします。これは、データエンジニアなどのプロデューサーにとっては、自分が作成したデータを誰が利用しているかを追跡するのに役立ち、データアナリストやデータエンジニアなどのデータコンシューマーにとっては、分析に利用しているのが適切なデータであるかどうかを把握するのに役立ちます。

情報が送信されると、Amazon DataZone はリネージモデルへの入力を開始し、API を通じて送信された識別子を、既にカタログ化されているアセットにマッピングできるようになります。新しいリネージ情報が送信されると、モデルはバージョンの作成を開始し、特定の時点でアセットのビジュアライゼーションを開始しますが、以前のバージョンに移動することもできます。

このユースケースでは、事前設定された Amazon DataZone ドメインを使用します。Amazon DataZone ドメインを使用して、データアセット、ユーザー、プロジェクトを整理します。Amazon DataZone コンソールに移動し、[ドメインを表示] を選択します。ドメイン [Sales_Domain] を選択し、[データポータルを開く] を選択します。

ドメインには 5 つのプロジェクトがあります。1 つはデータプロデューサー用 ([SalesProject])、4 つはデータコンシューマー用 ([MarketingTestProject][AdCampaignProject][SocialCampaignProject][WebCampaignProject]) です。「Amazon DataZone Now Generally Available – Collaborate on Data Projects across Organizational Boundaries」を参照して、独自のドメインとすべてのコアコンポーネントを作成できます。

[アセットを検索] バーに「Market Sales Table」と入力し、[Market Sales Table] アセットの詳細ページに移動します。[リネージ] タブを選択して、上流ノードと下流ノードのリネージを視覚化します。

これで、アセットの詳細、プロセス、それらのアセットにつながるジョブ、それらのアセットからつながるジョブを詳しく知ることができ、列レベルのリネージを詳しく確認できます。

データリネージを使用したインタラクティブなビジュアライゼーション
Amazon DataZone を定期的に操作し、データリネージ機能の恩恵を享受するさまざまなペルソナを使用して、グラフィカルインターフェイスをご紹介します。

まず、私がマーケティングアナリストであり、自信をもって分析で利用できるよう、データアセットのオリジンを確認する必要があるとします。[MarketingTestProject] ページに移動し、[リネージ] タブを選択します。リネージには、Amazon DataZone の内外で発生するアセットに関する情報が含まれていることがわかります。[カタログ化済み][公開済み]、および [アクセスをリクエスト済み] のラベルは、カタログ内のアクションを表します。データの出自を確認するには、[market_sales] データセット項目を展開します。

これで、データアセットのオリジンがわかり、分析を開始する前にそれが自分のビジネス目的と一致していることを確信できます。

次に、私がデータエンジニアだとします。意図しない変更を避けるために、自分の作業内容が依存オブジェクトに及ぼす影響を理解する必要があります。データエンジニアとして、システムに加えられた変更によって下流のプロセスが中断されることがあってはなりません。リネージを参照することで、誰がサブスクライブしており、アセットにアクセスできるのかを明確に確認できます。この情報を使用して、パイプラインに影響を及ぼす可能性のある喫緊の変更についてプロジェクトチームに通知できます。データの問題が報告された場合、各ノードを調査し、そのバージョン間を移動して、時間が経過する中で何が変わったのかを詳しく確認し、問題の根本原因を特定して適時に修正できます。

最後に、データの保護、ビジネス分類の標準化、データ管理プロセスの実施、および一般的なカタログ管理を担当する管理者またはスチュワードである場合について考えてみましょう。データのソースに関する詳細を収集し、その過程で発生した変換を理解する必要があります。

例えば、監査人からの質問に回答しようとしている管理者として、グラフを上流にたどってデータの出自を確認し、データがオンライン販売と店舗内販売という 2 つの異なるソースから来ていることに気づきました。これらのソースには、パイプラインが合流するポイントに到達するまで、独自のパイプラインがあります。

リネージグラフを適切に操作しながら、列を展開して、変換プロセス中に機密性の高い列が削除されるようにしたり、詳細について監査人に適時に回答したりできます。

プレビューにご参加ください
データリネージ機能は、Amazon DataZone が一般提供されているすべてのリージョンでプレビューとして利用できます。Amazon DataZone ドメインをプロビジョニングできるリージョンの一覧については、「AWS サービス (リージョン別)」にアクセスしてください。

データリネージのコストは、ストレージ使用量と API リクエストによります。これらは Amazon DataZone の料金モデルに既に含まれています。詳細については、「Amazon DataZone の料金」にアクセスしてください。

Amazon DataZone のデータリネージの詳細については、「Amazon DataZone ユーザーガイド」にアクセスしてください。

– Esra

原文はこちらです。