投稿日: Mar 30, 2021
AWS Glue DataBrew で Amazon S3 データレイクからデータセットを作成するときに動的データセットを作成して、新しい着信 Amazon S3 ファイルでデータの準備を予約したり、S3 でフィルター処理されたファイルまたは条件付きで選択されたファイルやフォルダに変換を適用したりできるようになりました。動的 S3 パスを作成して、最後のファイル更新の時間枠または時刻に基づいてファイルを選択し、カスタムパラメータを定義して、S3 ファイルパスの文字列、数値、または日付ベースの値を、「で始まる」、「で終わる」、「含む」、「含まない」、「より小さい」、「より大きい」、「前」などのフィルター条件に置き換えることができます。カスタムパラメータ名をデータセットの列として含めることができ、変更されたスキーマは動的データセットで実行されるジョブに使用します。パラメータ化された S3 パスやファイルを使用すれば、ユーザーは既存のレシピを適用して、選択した動的データセットで実行するように予約できます。
DataBrew は、事前構築済みの 250 以上の変換を使用して、コードを記述することなくデータを簡単にクリーニングし、正規化できるビジュアルデータ準備ツールです。
詳細については、この開始方法の動画を視聴するか、またはサンプルデータセットを使用して DataBrew をについての知識を深めてください。開始するには、AWS マネジメントコンソールにアクセスするか、またはノートブック環境に DataBrew プラグインをインストールして、DataBrew のドキュメントをご参照ください。