投稿日: Mar 31, 2023
AWS Glue Studio では、[連結]、[Split string] (文字列の分割)、[Array to columns] (配列から列へ)、[Add current timestamp] (現在のタイムスタンプを追加)、[Pivot rows to columns] (行から列へのピボット)、[Unpivot columns to rows] (列から行へのアンピボット)、[Lookup] (ルックアップ)、[Explode] (分解)、[Derived column] (派生列)、[Autobalance processing] (オートバランス処理) という 10 種類の新しいビジュアル変換が可能になりました。AWS Glue Studio は、抽出、変換、ロード (ETL) を行うためのビジュアルインターフェイスであり、AWS Glue の ETL ジョブを作成、実行、モニタリングするのに役立ちます。これらの新しいコンポーネントにより、ETL 開発者はコードを書かなくても、より高度なデータパイプラインを迅速に構築できます。
これらの 10 種類の新しい変換は、さまざまなデータ処理ニーズに対応します。たとえば、[連結] を使用して列を結合したり、[Split string] (文字列の分割) を使用して文字列を区切り文字で分割したりします。[Add current timestamp] (現在のタイムスタンプを追加) を使用すると、データがいつ処理されたかを記録できます。[Pivot rows to columns] (行から列へのピボット) や、[Unpivot columns to rows] (列から行へのアンピボット) を行うと、データを再構築して集計できます。[Lookup] (ルックアップ) を使うと、別のテーブルの列をデータセットに簡単に追加できます。[Derived column] (派生列) では、数学式または SQL 式を使用して、他の列に基づいて新しい列を定義できます。[Explode] (分解) は、ネストされたデータ構造を分解します。最後に、[Autobalance processing] (オートバランス処理) は、データがワーカー間で十分に分散されていない場合にジョブのパフォーマンスを向上させる高度な機能です。これらの新しい変換はすべて、ビジュアルベースのジョブとコードベースのジョブの両方で使用できます。
これらの新しいコンポーネントは、AWS Glue と同じ AWS リージョンで使用できます。
詳細については、AWS Glue のドキュメントをご覧ください。