AWS Glue データカタログが列レベルの統計のスケジュールされた生成のサポートを開始

投稿日: 2024年11月13日

AWS Glue データカタログでは、Apache Iceberg テーブルと Parquet、JSON、CSV、XML、ORC、ION などのファイル形式の列レベルの統計をスケジュールに基づいて生成できるようになりました。今回のリリースにより、Glue Data Catalog で定期的なスケジュールを作成することで、統計の生成を簡略化および自動化できます。これらの統計情報は、Amazon Redshift Spectrum および Amazon Athena のコストベースオプティマイザー (CBO) と統合されているため、クエリのパフォーマンスが向上し、コスト削減につながる可能性があります。

以前は、定期的な統計生成スケジュールを設定するには、AWS Lambda と Amazon EventBridge スケジューラを組み合わせて使用して AWS サービスを呼び出す必要がありました。この新機能により、Glue Data Catalog への追加設定として定期的なスケジュールをサンプリング率とともに提供できるようになりました。スケジュールされた実行ごとに、Apache Iceberg テーブルについては個別の値 (NDV) の数が収集され、その他のファイル形式については NULL の数、最大長、最小長、平均長などの追加統計が収集されます。統計が更新されると、Amazon Redshift と Amazon Athena はそれらを使用して、最適な結合順序やコストベースの集約プッシュダウンなどの最適化を使用してクエリを最適化します。各統計生成の実行のステータスとタイミング、および更新された統計値を確認できます。

開始するには、AWS Glue データカタログコンソールまたは AWS Glue API を使用して統計情報の生成をスケジュールできます。AWS Glue カタログ統計のスケジュールされた生成のサポートは Amazon EventBridge スケジューラが利用可能なすべてのリージョンで一般公開されています。詳細については、AWS Glue カタログのドキュメントをご覧ください。