投稿日: Apr 27, 2022

Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。SageMaker Data Wrangler のデータ選択ツールを使用すると、Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、Databricks Delta Lake、および Snowflake などの複数のデータソースからデータをすばやく選択できます。

本日、Data Wrangler 内のデータ品質およびインサイトレポート機能の一般提供を発表します。これまでは、機械学習のデータとデータ品質に関するインサイトを得るために、データサイエンティストは、これらのインサイトをインポート、処理、および分析して、最終的にエクスポートするために大量のコードを記述する必要がありました。これは、時間と労力のかかるプロセスです。今後、データサイエンティストは、データとデータ品質に関するインサイトがサポートされるようになったため、数回クリックするだけでこれらのインサイトに即座にアクセスできます。この新しいレポートは、データ品質を自動的に検証し、データの異常を検出します。データサイエンティストとデータエンジニアは、このツールを使用して、ドメインに関する知識を効率的かつ迅速に適用し、機械学習モデルトレーニング用のデータセットを処理できます。

レポートには次のセクションが含まれます。

  • [Summary statistics] (統計の概要)。このセクションでは、行数、特徴量、欠落率 (%)、有効率 (%)、重複行数、および特徴量のタイプの内訳 (数値とテキストなど) に関するインサイトを提供します。
  • [Data Quality Warnings] (データ品質の警告)。このセクションでは、データの異常を示す警告を提供し、小規模な少数派のクラスの存在、高いターゲットのカーディナリティ、まれなターゲットラベル、不均衡なクラス分布、歪みのあるターゲット、裾が重いターゲット、ターゲットの外れ値、回帰頻度ラベル、 無効な値などの項目が含まれます。
  • [Target Column Insights] (ターゲット列のインサイト)。このセクションでは、有効率 (%)、欠落率 (%)、外れ値率 (%)、最小/中央値/最大などの単変量統計を含むターゲット列の統計を提供し、外れ値または無効なターゲット値を持つ観測値の例も提示します。
  • [Quick Model] (クイックモデル)。データインサイトレポートは、特徴量エンジニアリングの進捗状況に対する方向チェックを提供し、関連付けられたモデルの統計をレポートで提供するために、データのモデルを自動的にトレーニングします。
  • [Feature Importance] (特徴量の重要度)。このセクションでは、データインサイトとデータ品質レポートを作成するときに自動的に計算される特徴量の重要度による特徴量のランキングを提供します。
  • [Anomalous and duplicate rows] (異常な行および重複した行)。データ品質とインサイトのレポートは、分離フォレストアルゴリズムを使用して異常なサンプルを検出します。また、データセットに存在する可能性のある重複した行も表示します。
  • [Feature details] (特徴量の詳細)。このセクションは、データセット内の各特徴量の統計の概要と、対応するターゲット変数の分布を示します。

データ品質とインサイトのレポートを作成する方法と、データ準備ワークフローの一部としてそれを使用する方法の詳細については、ブログをお読みください。

Amazon SageMaker Data Wrangler の新機能の使用を開始するには、最新のリリースにアップグレードしてから、Amazon SageMaker Studio を開き、トップメニューから [File] (ファイル) > [New] (新規) > [Flow] (フロー) とクリックするか、SageMaker Studio Launcher から [New data flow] (新規データフロー) をクリックします。新機能の詳細については、ドキュメントをご覧ください。