投稿日: Oct 21, 2022
Amazon SageMaker Data Wrangler に、S3 に保存されたさまざまなデータセットを、パラメータを使用して動的にサポートする機能が導入されました。Amazon SageMaker Data Wrangler は、機械学習 (ML) 用データの集約と準備に要する時間を、数週間から数分に短縮します。Data Wrangler を使用することで、データの準備と特徴量エンジニアリングのプロセスを簡素化し、データの選択、クレンジング、調査、可視化といったデータ準備ワークフローの各ステップを、単一のビジュアルインターフェイスで実行できるようになります。これまで、スケジュールに沿って Data Wrangler の処理ジョブを実行する際にデータセットを簡単かつ動的に参照する方法はありませんでした。また、S3 バケット内のファイルを絞り込んで処理に使用する方法も簡単ではありませんでした。さらには、Data Wrangler の処理ジョブを「ジョブの作成」ワークフローから、または Data Wrangler の処理ノートブックから実行する際に、データソースを簡単に変更する方法も存在しませんでした。
Data Wrangler で、パラメータ化されたデータセットのサポートが開始されたことにより、どのデータセットを Data Wrangler フローで処理すべきかを、パラメータを使用して特定することが可能になりました。パラメータは、Data Wrangler フローに保存できる変数です。日時のパラメータを指定すると、データセットで特定の日時範囲を参照できます。パターンパラメータを使用すると、特定のパターンと一致するファイル名にマッチするように、Python の正規表現を指定可能です。文字列または数値のパラメータは、ファイル名を、マッチする文字列値または数値にマッチさせるために使用します。Data Wrangler のパラメータには、ノードの [+] メニューをクリックし、[Edit dataset] (データセットを編集) を選択することでアクセス可能です。S3 パスの任意の箇所を強調表示すると、[Create custom parameter] (カスタムパラメータを作成) メニューが表示され、新しいパラメータを簡単に追加できます。パラメータの完全なリストには、S3 パスの横にある [{{ }}] アイコンをクリックすることでアクセス可能です。
この機能は、Data Wrangler が現在サポートしているすべての AWS リージョンで、追加料金なしで一般提供されています。SageMaker Data Wrangler を使用してデータ処理ジョブのスケジューリングを開始する方法については、AWS ドキュメントをご覧ください。