Amazon Web Services ブログ
AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始
AWS Glue は、抽出、変換、およびロード (ETL) のためのフルマネージド型のサービスで、これを利用することで分析のためのデータの準備と読み込みが容易になります。Glue は「サーバーレス」です。リソースをプロビジョニングしたり管理したりする必要はなく、Glue がアクティブに実行されている場合にのみリソースについて支払いを行います。
10 倍速く起動する Spark ETL ジョブを特徴とする AWS Glue バージョン 2.0 の一般提供が開始されました。起動レイテンシーの低減により、全体的なジョブ実行時間が短縮され、マイクロバッチ処理と時間が重要な要素となるワークロードでお客様をサポートし、インタラクティブなスクリプト開発とデータ探索を可能にすることでビジネスの生産性を向上させます。
Spark ETL ジョブの起動時間が 10 倍高速化された AWS Glue バージョン 2.0 の一般提供が開始されました。Glue バージョン 2.0 では、ジョブの起動遅延がより予測可能になり、オーバーヘッドが少なくなります。さらに、AWS Glue バージョン 2.0 の Spark ジョブでは、最小の請求期間が 10 分の 1 (すなわち 10 分の最小請求期間から 1 分の最小請求期間) になり、1 秒単位で請求されます。その結果、お客様は、マイクロバッチ、期限厳守のインタラクティブなワークロードをより高いコスト効率で実行できるようになりました。お客様は、マイクロバッチジョブを実行して、データレイク、データウェアハウス、およびデータベースをすばやくロードし、リアルタイム分析を実現できます。ジョブの起動時間が短くなると、SLA 駆動のデータパイプラインの実行の信頼性がより高まります。ジョブの起動時間を短縮することで、インタラクティブなデータ探索と実験も可能になります。Glue バージョン 2.0 は、wheel ファイルまたはリポジトリから Python モジュールをインストールする新しい機能も提供します。
仕組み
AWS マネジメントコンソールでどのように機能するか見てみましょう。この新機能を活用するのは簡単です。以下に示すように、新しい Glue Spark ETL ジョブを作成するか、既存の Glue Spark ETL ジョブを Glue バージョン 2.0 に移動できます。
簡単な Glue ジョブを作成して、さまざまな Amazon S3 バケット間で .csv ファイルをコピーしました。
Glue バージョン 1.0
Glue バージョン 2.0
Glue バージョン 2.0 の起動時間が 10 倍速くなっていることがわかります。
本日よりご利用いただけます
この機能は現在、米国東部 (バージニア北部、オハイオ、北カリフォルニア、オレゴン)、欧州 (フランクフルト、アイルランド、ロンドン、パリ、ストックホルム)、アジアパシフィック (香港、ムンバイ、ソウル、シンガポール、シドニー、および東京)、カナダ (中部)、中東 (バーレーン)、南米 (サンパウロ) で利用できます。詳細については、最新のドキュメントと料金のページを参照してください。
– Kame;