投稿日: Jun 6, 2023
AWS は、データレイクとデータパイプラインの品質を自動的に測定しモニタリングする新機能、AWS Glue Data Quality の一般公開を開始しました。AWS Glue はサーバーレスかつスケーラブルなデータ統合と ETL (抽出、変換、ロード) サービスで、複数のソースからのデータの検出、準備、移動、統合を簡素化します。
AWS Glue Data Quality は、データを自動的に分析してデータ統計を収集することで、データ品質を支える手作業の必要性を減らすのに役立ちます。オープンソースの Deequ を使用して、ペタバイト規模のデータレイクのルールを評価し、データ品質を測定および監視します。推奨されるデータ品質ルールを設定し、それに基づき検証を開始します。推奨ルールを更新したり、新しいルールを追加したりできます。データ品質が低下した場合はユーザーに警告し、問題の根本原因を詳しく調べるアクションを設定できます。データ品質ルールとアクションは AWS Glue データパイプラインでも設定できるため、「悪い」データがデータレイクやデータウェアハウスに侵入するのを防ぐのに役立ちます。
一般公開に伴い、データ品質チェックに失敗した特定のレコードを特定する新機能をリリースし、さまざまなデータセット間のデータ整合性を検証する新しいルールを追加しました。AWS Glue データカタログにカタログ化されている Amazon Redshift、Apache Iceberg、Apache HUDI、Delta Lake データセットのデータ品質を検証できるようになりました。AWS Glue Data Quality の結果が Amazon EventBridge に公開されるようになったため、ユーザーへの警告方法が簡略化され、データ品質の結果を他のアプリケーションと統合できるようになりました。これらの機能により、さまざまなデータセットにわたって徹底的なデータ品質チェックを行い、修正が必要な問題を特定できます
AWS Glue Data Quality は、AWS Glue が利用可能なすべての AWS リージョンで利用可能です。
詳細については、AWS Glue Data Quality をご覧ください。