投稿日: Sep 22, 2022
Amazon SageMaker Data Wrangler は機械学習 (ML) の初めての完全統合開発環境 (IDE) である Amazon SageMaker Studio で、ML のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データの準備と特徴量エンジニアリングのプロセスを簡素化して、データの選択、クレンジング、調査、可視化など、データ準備のワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、Snowflake、Amazon Athena でサポートされている 26 個の Federated Query データソースなど、幅広い種類のデータソースからデータをインポートできます。本日より、Athena データソースからデータをインポートするユーザーは S3 クエリの出力先とデータ保持期間を設定し、Athena が中間データを保存する場所と期間を管理できるようになりました。
Amazon Athena はインタラクティブなクエリサービスで、標準的な SQL を使用して Glue Data Catalog の閲覧および、Amazon S3 と 26 個の Federated Query データソースのデータの直接分析を簡単にできるようにします。Data Wrangler は Athena ワークグループをサポートして、S3 クエリのカスタムな出力先を提供します。本日より、Athena クエリの S3 のカスタムな出力先を指定したり、Data Wrangler の既存のデフォルトのバケットを引き続き使用したりできます。ストレージコストを管理するために、Athena クエリ出力のデフォルトのデータ保持期間が 5 日になりました。このデータ保持期間は、ニーズや組織のデータセキュリティのガイドラインに合わせて変更できます。Athena を介してデータをインポートすると、Data Wrangler のビジュアルインターフェイスを使用して複数のソースからのデータを結合し、データ品質およびインサイトレポートやその他の組み込みの可視化ツールによってデータを調査、分析して潜在的なエラーと極端な値を特定できます。300 以上の組み込みのデータ変換により、データクレンジングと機能のエンジニアリングをすばやく行えます。より大きなデータセットを処理するジョブを作成することも、Data Wrangler から直接 SageMaker Autopilot のトレーニングジョブを開始し、準備したデータを使用してビジネスの問題に最適なモデルを自動的に見つけることもできます。
現在、Data Wrangler をサポートしているすべての AWS リージョンで、追加料金なしでこれらの機能を利用できます。SageMaker Data Wrangler の使用を開始するには、ブログ記事と AWS のドキュメントをご覧ください。