投稿日: Dec 19, 2022
Amazon Athena で Delta Lake テーブルに対してシームレスにクエリを実行できるようになりました。これにより、運用効率とクエリパフォーマンスが向上するとともに、コストが削減されるという利点が得られます。Delta Lake は、Amazon S3 で一般的に構築されている、モダンなデータレイクアーキテクチャの実装に役立つオープンソースのテーブル形式です。今回の発表以前は、Athena で Delta Lake テーブルを読み取るには、追加のメタデータファイルを生成して管理するという複雑なプロセスが必要でした。この発表により、Athena を使用して Delta Lake テーブルに対して直接クエリを実行できるようになりました。
Athena では、Delta Lake 形式のデータレイクのインタラクティブな分析とダッシュボードレポートを利用できますが、このリリースにより、Delta Lake テーブルの更新が完了すると即座に Athena で分析できるようになります。Athena では、Delta Lake ファイルに含まれるメタデータを使用してクエリが最適化されるため、データスキャンのコストを削減し、Athena クエリのパフォーマンスを最大 40% 向上させることができます。Athena で CREATE EXTERNAL TABLE や DESCRIBE TABLE といった簡単な DDL ステートメントを使用すれば、AWS Glue データカタログ内の Delta Lake テーブルを簡単に作成したり管理したりできます。これらのステートメントは、Athena でサポートされている他のテーブルタイプと一貫性があります。また、AWS Glue でクローラーを使用して Delta Lake テーブルスキーマを検出し、Delta Lake ファイルの Glue データカタログ内のスキーマの更新を管理できるため、新たにカタログ化されたデータを Athena でシームレスに分析できるようになります。
Delta Lake の拡張読み取りサポートは、Athena エンジンバージョン 3 で利用可能です。Athena のドライバー、API、コンソールで使用でき、サポートされているすべてのリージョンで利用できます。Athena での新しい Delta Lake サポートの詳細については、Athena ユーザドキュメントの「Querying Delta Lake tables」(Delta Lake テーブルに対してクエリを実行する) を参照してください。