投稿日: Apr 27, 2022
Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。SageMaker Data Wrangler のデータ選択ツールを使用すると、Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、Databricks Delta Lake、および Snowflake などの複数のデータソースからデータをすばやく選択できます。
本日、S3 からインポートする際のデータのランダムサンプリングと、Amazon SageMaker Studio の Amazon SageMaker Data Wrangler を使用してデータセットのランダムサンプルまたは層化サンプルを作成するための新しい変換の一般提供について発表します。これまでは、機械学習アプリケーション用のデータを準備するときに、データのランダムサンプルまたは層化サンプルを作成するコードを記述する必要がありました。今後は、インポート時にランダムサンプリングオプションを使用すると、データを Data Wrangler にインポートするときに S3 でデータのランダムサンプルを作成できるようになりました。さらに、ランダムおよび層化サンプリング用の新しい変換を使用すると、データセット用に次のタイプのサンプルを作成できます。
- ランダムサンプル。ランダムサンプルは、大きすぎてインタラクティブに準備できないデータセットがある場合に役立ちます。ランダムサンプリング変換を使用すると、データセットの一部をランダムにサンプリングして、機械学習のために準備を整えることができます。
- 層化サンプル。層化サンプルは、データにまれなイベント (すべてのクレジットカードを利用した取引のうち、1% にほど遠い確立で発生する不正なクレジットカードによる取引など) が含まれていて、サンプリングされたデータセット内でそのまれなイベントの割合を保持したい場合に役立ちます。
- 最初の K サンプル。最初の K サンプルは、データセットの最初の K 行を使用してサンプルを作成します。K は数値です。例えば、K が 1,000 の場合、データセットの最初の 1,000 行を含むサンプルが作成されます。最初の K サンプリングは、データを準備するために正しい列スキーマのみが必要な場合に役立ちます。最初の K サンプルの他のメリットとしては、非常に時間効率の良いオペレーションであるということが挙げられます。
Amazon SageMaker Data Wrangler を使用してデータをサンプリングする方法の詳細については、ブログをお読みください。
Amazon SageMaker Data Wrangler の新機能の使用を開始するには、最新のリリースにアップグレードしてから、Amazon SageMaker Studio を開き、メニューから [File] (ファイル) > [New] (新規) > [Flow] (フロー) とクリックするか、SageMaker Studio ランチャーから [new data flow] (新規データフロー) をクリックします。新機能の詳細については、ドキュメントをご覧ください。