Amazon Web Services ブログ

AWS Glue Studio でデータ準備を使用してデータを統合し、コラボレーションする

7月9日、AWS Glue Studio Visual ETL でのデータ準備オーサリングの一般提供を開始することをお知らせします。これは、ビジネスユーザーとデータアナリスト向けの新しいノーコードデータ準備ユーザーエクスペリエンスで、スプレッドシートスタイルの UI を備えており、AWS Glue for Spark でデータ統合ジョブを大規模に実行します。新しいビジュアルデータ準備エクスペリエンスにより、データアナリストとデータサイエンティストは、データをクリーンアップして変換し、分析と機械学習 (ML) 用に準備することが容易になります。この新しいエクスペリエンスでは、数百の事前構築済みの変換から選択して、データ準備タスクを自動化できます。コードを記述する必要はありません。

ビジネスアナリストは、データエンジニアと協力してデータ統合ジョブを構築できるようになりました。データエンジニアは、Glue Studio のビジュアルフローベースのビューを使用して、データへの接続を定義したり、データフロープロセスの順序を設定したりできます。ビジネスアナリストは、データ準備エクスペリエンスを使用して、データ変換と出力を定義できます。さらに、既存の AWS Glue DataBrew データクレンジングおよび準備「レシピ」を新しい AWS Glue データ準備エクスペリエンスにインポートできます。この方法では、引き続き AWS Glue Studio で直接オーサリングし、レシピをスケールアップして、AWS Glue ジョブのためにより低い料金ポイントでペタバイト単位のデータを処理できます。

ビジュアル ETL の前提条件 (環境設定)
ビジュアル ETL には、AWS Glue にアクセスするユーザーとロールにアタッチされた AWSGlueConsoleFullAccess IAM マネージドポリシーが必要です。


このポリシーは、AWS Glue へのフルアクセスと、Amazon Simple Storage Service (Amazon S3) リソースへの読み取りアクセスを、これらのユーザーとロールに付与します。

高度なビジュアル ETL フロー
適切な AWS Identity and Access Management (IAM) ロール許可が定義されたら、AWS Glue Studio を使用してビジュアル ETL をオーサリングします。

抽出
[ソース] のリストから Amazon S3 ノードを選択して、Amazon S3 ノードを作成します。


新しく作成したノードを選択し、S3 データセットを参照します。ファイルが正常にアップロードされたら、[スキーマを推測] を選択してソースノードを設定すると、ビジュアルインターフェイスに .csv ファイルに含まれるデータのプレビューが表示されます。

私は以前、AWS Glue ビジュアル ETL と同じリージョンに S3 バケットを作成し、視覚化するデータを含む .csv ファイルである visual ETL conference data.csv をアップロードしました。

前のステップで詳しく説明したように、S3 バケットを読み取るためのアクセスを AWS Glue に付与するロール許可を設定することが重要です。このステップを実行しないと、エラーが発生し、最終的にデータプレビューが表示されなくなります。

変換
ノードが設定されたら、データ準備レシピを追加して、データプレビューセッションを開始します。このセッションの開始には通常約 2~3 分かかります。


データプレビューセッションの準備ができたら、[レシピをオーサリング] を選択してオーサリングセッションを開始し、データフレームが完成したら変換を追加します。オーサリングセッション中は、データの表示、変換ステップの適用、変換されたデータのインタラクティブな表示が可能です。ステップを元に戻したり、やり直したりできるほか、ステップの順序を変更することもできます。列のデータ型と各列の統計プロパティを視覚化できます。


[ステップを追加] を選択して、小文字から大文字への形式変更、並べ替え順序の変更など、データへの変換ステップの適用を開始できます。すべてのデータ準備ステップはレシピで追跡されます。
南アフリカで開催される会議のビューが必要だったため、[場所] 列の値が「South Africa」と等しく、[コメント] 列に値が含まれているという条件でフィルタリングする 2 つのレシピを作成しました。


ロード
インタラクティブにデータを準備したら、データエンジニアと作業内容を共有できます。データエンジニアは、より高度なビジュアル ETL フローとカスタムコードを使用してその作業内容を拡張し、本番データパイプラインにシームレスに統合できます。

今すぐご利用いただけます
AWS Glue データ準備オーサリングエクスペリエンスは、AWS Data Brew が利用可能なすべての商用 AWS リージョンで一般提供されています。詳細については、AWS Glue にアクセスしてください。

詳細については、「AWS Glue デベロッパーガイド」にアクセスしてください。また、AWS re:Post for AWS Glue または通常の AWS サポートの連絡先を通じて、ぜひフィードバックをお寄せください。

Veliswa

原文はこちらです。