投稿日: Nov 28, 2022
AWS Glue for Apache Spark は3 つのオープンソースデータレイクストレージフレームワーク、Apache Hudi、Apache Iceberg、Linux Foundation Delta Lake をサポートするようになりました。これらのフレームワークを使用すると、Amazon Simple Storage Service (Amazon S3) でトランザクションとして一貫した方法でデータを読み書できます。AWS Glue はサーバーレスでスケーラブルなデータ統合サービスで、複数のソースからのデータの検出、準備、移動、統合を簡素化します。この機能により、個別のコネクタをインストールする必要がなくなり、AWS Glue for Apache Spark のジョブでこれらのフレームワークを使用するのに必要な設定手順を減らせます。
これらのオープンソースデータレイクフレームワークにより、Amazon S3 に構築したデータレイクでの増分データの処理が簡単になります。これらのフレームワークは、タイムトラベルクエリ、ACID (不可分性、整合性、分離性、耐久性) トランザクション、ストリーミングの取り込み、変更データキャプチャ (CDC)、アップサート、削除などの機能を有効にします。
詳細については、AWS のドキュメントをご覧ください。
この機能は、AWS Glue が利用できるすべての商用 AWS リージョンで利用可能です。