Amazon Web Services ブログ

新しい Amazon SageMaker Lakehouse で分析と AI/ML を簡素化

12 月 3 日、Amazon SageMaker Lakehouse の一般提供をお知らせできたことを大変嬉しく思います。これは Amazon Simple Storage Service (Amazon S3) データレイクと Amazon Redshift データウェアハウス全体のデータを統合する機能で、強力な分析や、人工知能と機械学習 (AI/ML) アプリケーションを単一のデータのコピー上に構築するのに役立ちます。SageMaker Lakehouse は次世代 Amazon SageMaker の一部です。Amazon SageMaker はデータ、分析、AI の統合プラットフォームで、広く採用されている AWS の機械学習と分析機能を統合し、分析と AI の統合エクスペリエンスを提供します。

お客様はデータをもっと活用したいと考えています。分析ジャーニーをより迅速に進めるために、データの保存に適したストレージとデータベースを選択しています。データはデータレイク、データウェアハウス、さまざまなアプリケーションに分散しているため、データサイロ化が進み、アクセスや利用が困難になっています。この断片化は、重複したデータコピーや複雑なデータパイプラインにつながり、ひいては組織のコストを増大させます。さらに、データを保存する方法と場所によって選択肢が限られるため、お客様は特定のクエリエンジンとツールを使用するしかありません。この制限により、希望どおりにデータを処理することができなくなります。しかも、データへのアクセスに一貫性がないため、お客様が情報に基づくビジネス上の意思決定を行うことが困難になります。

SageMaker Lakehouse は、お客様が Amazon S3 データレイクと Amazon Redshift データウェアハウス全体でデータを統合できるようにすることで、これらの課題に対処します。Apache Iceberg と互換性のあるすべてのエンジンとツールを使用して、その場でデータへのアクセスとクエリを柔軟に行うことができます。SageMaker Lakehouse では、きめ細かな権限を一元的に定義して複数の AWS サービスに適用できるため、データ共有とコラボレーションが簡単になります。SageMaker レイクハウスにデータを取り込むのは簡単です。既存のデータレイクやデータウェアハウスのデータにシームレスにアクセスできるだけでなく、Amazon AuroraAmazon RDS for MySQLAmazon DynamoDB などのオペレーショナルデータベースや、Salesforce や SAP などのアプリケーションからもゼロ ETL を使用できます。SageMaker レイクハウスは既存の環境に適合します。

SageMaker Lakehouse の使用を開始する
このデモンストレーションでは、複数の AWS データソースを含む事前設定済みの環境を使用します。Amazon SageMaker Unified Studio (プレビュー) コンソールに移動します。このコンソールでは、すべてのデータと AI の統合開発エクスペリエンスが提供されます。Unified Studio を使用すると、使い慣れた AWS ツールを分析や AI/ML に使用しながら、SageMaker Lakehouse を通じてさまざまなソースからのデータにシームレスにアクセスして、クエリを実行できます。

ここで、共有ワークスペースとして機能するプロジェクトを作成および管理できます。これらのプロジェクトにより、チームメンバーは共同作業、データ処理、AI モデルの共同開発を行うことができます。プロジェクトを作成すると、AWS Glue データカタログのデータベースが自動的にセットアップされ、Redshift Managed Storage (RMS) データのカタログが確立され、必要な権限がプロビジョニングされます。新しいプロジェクトを作成することから始めることも、既存のプロジェクトを続行することもできます。

新しいプロジェクトを作成するには、[プロジェクトを作成] を選択します。

レイクハウスを構築して操作するためのプロジェクトプロファイルオプションは 2 つあります。1 つ目はデータ分析と AI-ML モデルの開発です。ここではデータを分析して、Amazon EMRAWS Glue 、Amazon Athena、Amazon SageMaker AI、SageMaker Lakehouse を利用した ML と生成 AI モデルを構築できます。2 つ目は SQL 分析です。SQL を使用して SageMaker Lakehouse 内のデータを分析できます。このデモでは、SQL 分析を進めます。

[プロジェクト名] フィールドにプロジェクト名を入力し、[プロジェクトプロファイル][SQL 分析] を選択します。[続行] を選択します。

すべてのパラメータの値を [ツール] に入力します。値を入力して [Lakehouse] データベースを作成します。値を入力して [Redshift サーバーレス] リソースを作成します。最後に、[Lakehouse カタログ] にカタログの名前を入力します。

次のステップでは、リソースを確認して [プロジェクトを作成] を選択します。

プロジェクトが作成されたら、プロジェクトの詳細を確認します。

ナビゲーションペインの [データ] に移動し、+ (プラス) 記号を選択して [データを追加] します。[カタログを作成] を選択して新しいカタログを作成し、[データを追加] を選択します。

RMS カタログを作成したら、ナビゲーションペインで [ビルド] を選択し、[データ分析と統合][クエリエディタ] を選択して RMS カタログにスキーマを作成し、テーブルを作成してから、サンプル売上データを含むテーブルをロードします。

指定されたセルに SQL クエリを入力した後、右のドロップダウンメニューから [データソースを選択] を選択して Amazon Redshift データウェアハウスへのデータベース接続を確立します。この接続により、クエリを実行してデータベースから目的のデータを取得できます。

データベース接続が正常に確立されたら、[すべて実行] を選択してすべてのクエリを実行し、すべての結果が表示されるまで実行の進行状況をモニタリングします。

このデモンストレーションでは、事前設定済みのカタログをさらに 2 つ使用します。カタログは、スキーマやテーブルなどの Lakehouse オブジェクト定義を整理するコンテナです。1 つ目は Amazon S3 データレイクカタログ (test-s3-catalog) で、詳細な取引情報や統計情報を含む顧客レコードを保存します。2 つ目は、顧客離脱データの保存と管理に特化したレイクハウスカタログ (churn_lakehouse) です。この統合により、顧客行動と顧客離脱予測を同時に分析できる統合環境が構築されました。

ナビゲーションペインで [データ] を選択し、[Lakehouse] セクションでカタログを見つけます。SageMaker Lakehouse には、[Athena を使用してクエリ][Redshift を使用してクエリ][Jupyter Lab Notebook で開く] など、複数の分析オプションが用意されています。

[Jupyter Lab Notebook を開く] オプションを使用する場合は、プロジェクトを作成するときに [データ分析と AI-ML モデル開発] プロファイルを選択する必要があることに注意してください。 [Jupyter Lab Notebook で開く] を選択すると、EMR 7.5.0 経由の Apache Spark または AWS Glue 5.0 を使用して SageMaker Lakehouse を操作できます。Iceberg REST カタログを設定することで、データレイクやデータウェアハウス全体のデータを統一された方法で処理できるようになります。

Jupyter Lab Notebook を使用したクエリ方法を次に示します。

続けて [Athena を使用してクエリ] を選択します。このオプションを使用すると、Amazon Athena のサーバーレスクエリ機能を使用して、SageMaker Lakehouse 内で売上データを直接分析できます。 [Athena を使用してクエリ] を選択すると、クエリエディタが自動的に起動し、レイクハウスに対して SQL クエリを作成して実行できるワークスペースが表示されます。この統合クエリ環境は、生産性を向上させる構文強調表示やオートコンプリート機能を備えているため、データの探索と分析をシームレスに行うことができます。

[Redshift を使用してクエリ] オプションを使用して、レイクハウスに対して SQL クエリを実行することもできます。

SageMaker Lakehouse は、最新のデータ管理と分析のための包括的なソリューションを提供します。SageMaker Lakehouse は、複数のソースにわたるデータへのアクセスを統合し、幅広い分析と ML エンジンをサポートして、きめ細かなアクセス制御を提供することで、データアセットを最大限に活用できるよう支援します。SageMaker Lakehouse は、Amazon S3 のデータレイク、Amazon Redshift のデータウェアハウス、運用データベースやアプリケーションのいずれを扱う場合でも、イノベーションを推進し、データ主導の意思決定を行うために必要となる柔軟性とセキュリティを提供します。何百ものコネクタを使用して、さまざまなソースからのデータを統合できます。さらに、サードパーティーのデータソース全体にわたる統合クエリ機能を使用し、その場でデータにアクセスしてクエリを実行できます。

今すぐご利用いただけます
SageMaker Lakehouse には、AWS マネジメントコンソール、API、AWS コマンドラインインターフェイス (AWS CLI)AWS SDK からアクセスできます。AWS Glue データカタログAWS Lake Formation からアクセスすることもできます。SageMaker Lakehouse は、米国東部 (バージニア北部)、米国西部 (オレゴン)、米国東部 (オハイオ)、欧州 (アイルランド)、欧州 (フランクフルト)、欧州 (ストックホルム)、アジアパシフィック (シドニー)、アジアパシフィック (香港)、アジアパシフィック (東京)、アジアパシフィック (シンガポール) の AWS リージョンでご利用いただけます。

料金の情報については、Amazon SageMaker の料金をご覧ください。

Amazon SageMaker Lakehouse の詳細や、データ分析と AI/ML ワークフローを簡素化する方法については、Amazon SageMaker Lakehouse のドキュメントをご覧ください。

– Esra

原文はこちらです。