投稿日: Nov 17, 2023
AWS Glue データカタログは、AWS Glue テーブルに関する列レベルの統計情報の生成をサポートするようになりました。これらの統計情報は、Amazon Athena および Amazon Redshift Spectrum のコストベースオプティマイザー (CBO) と統合されたため、クエリのパフォーマンスが向上し、コスト削減につながる可能性があります。
このリリースにより、Glue テーブルの統計情報を収集して Glue カタログに保存し、分析サービスで利用できるようにしてクエリのプランニングと実行を改善するという、統合されたエンドツーエンドのエクスペリエンスがお客様に提供されます。これらの統計は、Parquet、ORC、JSON、ION、CSV、XML などのファイルにおける個別の値の数、NULL の数、最大値、最小値などの列レベルの統計です。統計を使用することにより、Amazon Athena や Amazon Redshift などの分析サービスでは、クエリ処理のできるだけ早い段階で最も制限の厳しいフィルターを適用することができ、クエリ結果を得るためのメモリ使用量と読み取りレコード数を制限してクエリを最適化できます。
最初にユーザーは AWS Glue コンソールまたは AWS Glue API を使用して、AWS Glue カタログテーブルの統計を生成し、統計を表示できます。お客様が Amazon Athena と Amazon Redshift Spectrum からクエリを実行すると、AWS Glue カタログとの組み込み統合により、クエリのパフォーマンスが自動的に向上します。