- Amazon SageMaker›
- レイクハウスのアーキテクチャ›
- よくある質問
レイクハウスのアーキテクチャに関するよくある質問
全般
すべて開く次世代の Amazon SageMaker は、Apache Iceberg と完全に互換性のあるオープンレイクハウスアーキテクチャ上に構築されています。S3 Tables を含む Amazon S3 データレイク、および Amazon Redshift データウェアハウスにわたるすべてのデータを統合し、単一コピーのデータで強力な分析および AI/ML アプリケーションを構築することを支援します。オペレーショナルデータベースやアプリケーションとのゼロ ETL 統合、データソースとのクエリフェデレーション、リモート Apache Iceberg テーブルのカタログフェデレーションを通じて、追加のソースからデータを接続します。Amazon DynamoDB、Amazon Aurora mySQL といったオペレーショナルデータベースや、SAP、Salesforce といったアプリケーションからのデータを、ゼロ ETL 統合を通じてほぼリアルタイムでレイクハウスに取り込みます。Google BigQuery、Snowflake などのデータソースにわたるフェデレーションクエリ機能で、データをその場でアクセス・クエリします。リモート Iceberg カタログ向けのカタログフェデレーションにより、S3 に保存され、Databricks Unity Catalog、Snowflake Polaris Catalog、およびカスタム Iceberg-REST カタログに登録された Iceberg テーブルに、AWS 分析エンジンから直接アクセスします。Iceberg 互換のすべてのツールとエンジンで、データをその場でアクセス・クエリできる柔軟性を実現します。すべての分析および機械学習(ML)ツール・エンジンで適用される統合アクセス制御を定義することで、データを保護します。
レイクハウスアーキテクチャには主に 3 つのメリットがあります。
- 統合データアクセス:レイクハウスは S3 Tables を含む Amazon S3 データレイク、および Amazon Redshift データウェアハウスにわたるデータを統合します。オペレーショナルデータベースやアプリケーションとのゼロ ETL 統合、データソースとのクエリフェデレーション、リモート Apache Iceberg テーブルのカタログフェデレーションを通じて、追加のソースからデータを接続します。Amazon DynamoDB、Amazon Aurora mySQL といったオペレーショナルデータベースや、SAP、Salesforce といったアプリケーションからのデータを、ゼロ ETL 統合を通じてほぼリアルタイムでレイクハウスに取り込みます。Google BigQuery、Snowflake などのデータソースにわたるフェデレーションクエリ機能で、データをその場でアクセス・クエリします。カタログフェデレーションを使用して、S3 に保存され Databricks Unity Catalog、Snowflake Polaris Catalog、カスタム Iceberg-REST カタログに登録された Iceberg テーブルに、AWS 分析エンジンから直接アクセスします。
- Apache Iceberg 互換性:レイクハウスは、Apache Iceberg と互換性のある幅広い AWS サービス、オープンソース・サードパーティツール / エンジンで、データをその場でアクセス・クエリする柔軟性を提供します。SQL、Apache Spark、ビジネスインテリジェンス (BI)、AI/ML ツールなど、お好みの分析ツールとエンジンを使用し、Amazon S3 または Amazon Redshift に保存されているデータの 1 つのコピーを使用して共同作業を行うことができます。
- 安全なデータアクセス:テーブル、列、セルレベルでの統合・きめ細かいアクセス制御でデータを保護し、これらの権限をすべての分析ツール / エンジンで適用します。タグベース、属性ベース、ロールベースのアクセスポリシーを使用して、セキュリティ要件に対応します。データのコピーを作成することなく、組織内でデータを共有します。
Amazon SageMaker は、データ資産全体のデータを統合するオープンレイクハウスアーキテクチャを基盤に構築されています。さまざまなソースからのデータは、カタログと呼ばれる論理コンテナで整理されます。各カタログは、Amazon Redshift データウェアハウス、S3 データレイク、データベースといったソースを表します。Amazon S3 または Redshift Managed Storage(RMS)にデータを保存するための新しいカタログを作成することもできます。レイクハウスは SageMaker Unified Studio から直接アクセス可能で、レイクハウス内のデータは Apache Spark、Athena、Amazon EMR といった Apache Iceberg 互換エンジンからアクセスできます。さらに、SQL ツールを使用してレイクハウス内のデータに接続し分析することもできます。データはきめ細かいアクセス制御を定義することで保護され、これらの制御はデータにアクセスするすべてのツールとエンジンで適用されます。
機能
すべて開くAmazon SageMaker は 2 つの機能でデータへのアクセス制御を統合します:1)レイクハウスではきめ細かい権限を定義できます。この許可は、Amazon EMR、Athena、Amazon Redshift などのクエリエンジンによって強制適用されます。2)レイクハウスではデータにその場でアクセスできるため、データのコピー作成が不要になります。データの単一コピーと単一セットのアクセス制御ポリシーを維持することで、レイクハウスにおける統合されたきめ細かいアクセス制御のメリットを享受できます。
SageMaker のレイクハウスアーキテクチャは、AWS Glue データカタログ、Lake Formation、Amazon Redshift にわたる複数の技術カタログを利用し、データレイクとデータウェアハウスにわたる統合データアクセスを提供します。テーブル定義と権限の保存には、AWS Glue データカタログ と Lake Formation を使用します。Lake Formation のきめ細かい権限は、レイクハウスで定義されたテーブルに適用可能です。AWS Glue データカタログでテーブル定義を管理し、テーブルレベル、列レベル、セルレベルのアクセス許可などのきめ細かなアクセス許可を定義してデータを保護できます。さらに、クロスアカウントデータ共有機能を使用すると、コピーなしのデータ共有を有効にして、データを安全なコラボレーションに利用できるようになります。
はい。レイクハウスにアクセスするには、オープンソースの Apache Iceberg クライアントライブラリが必要です。Apache Spark や Trino などのサードパーティー製またはセルフマネージド型のオープンソースエンジンを使用しているお客様は、レイクハウスにアクセスするために、クエリエンジンに Apache Iceberg クライアントライブラリを組み込む必要があります。
はい。Apache Iceberg クライアントライブラリを使用すると、Amazon EMR、AWS Glue、Athena、Amazon SageMaker などの AWS サービスやサードパーティーの Apache Spark 上の Apache Spark エンジンから既存の Amazon Redshift に対してデータの読み取りと書き込みを実行できます。ただし、テーブルにデータを書き込むには、テーブルに対する適切な書き込み許可が必要です。
はい。Apache Spark などの好みのエンジンを使用して、Amazon S3 のデータレイクテーブルを複数のデータベースにわたる Amazon Redshift データウェアハウス内のテーブルと結合できます。
Amazon S3 Tables が SageMaker Lakehouse とシームレスに統合され、S3 Tables をクエリして、S3 データレイク、Amazon Redshift データウェアハウス、およびサードパーティデータソースのデータと簡単に結合できるようになりました。SageMaker Lakehouse では、Apache Iceberg オープンスタンダードを使用して、S3 Tables、S3 バケット、Redshift ウェアハウス間でインプレースでデータに柔軟にアクセスしてクエリを実行できます。すべての分析および ML ツールとエンジンに一貫して適用される権限をきめ細かく定義することで、レイクハウス内のデータを保護し、一元管理できます。
ゼロ ETL 統合
すべて開くSageMaker のレイクハウスは、Amazon DynamoDB、Amazon Aurora MySQL、Amazon Aurora PostgreSQL、Amazon RDS MySQL とのゼロ ETL 統合に対応しており、さらに SAP、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、Instagram 広告、Zendesk、Zoho CRM という 8 つのアプリケーションとのゼロ ETL 統合もサポートしています。
AWS Glue コンソールを通じて、ゼロ ETL 統合の設定と監視が可能です。データが取り込まれると、Apache Iceberg 互換のクエリエンジンからデータにアクセスしてクエリを実行できます。詳細については、ゼロ ETL 統合にアクセスしてください。
ゼロ ETL の料金の詳細については、 SageMaker のレイクハウスとAWS Glueの料金表ページをご覧ください。
料金
すべて開く詳細については、 SageMaker のレイクハウス価格ページをご覧ください。
可用性
すべて開く次世代 Amazon SageMaker は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (香港)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (ストックホルム)、南米 (サンパウロ) でご利用いただけます。今後のアップデートについては、AWS リージョン別のサービス表をご覧ください。
はい。レイクハウスはメタデータを AWS Glue データカタログに保存し、Amazon Glue と同じ SLA を提供します。
開始方法
すべて開くSageMaker のレイクハウスは、Amazon SageMaker Unified Studio からアクセス可能です。SageMaker Unified Studio から、新規プロジェクトを作成するか既存プロジェクトを選択できます。プロジェクト内で左ナビゲーションの Data をクリックすると、Data explorer パネルが表示されます。Data explorer パネルでは、レイクハウス内でアクセス可能なデータの一覧を確認できます。初期導入を支援するため、プロジェクト作成時にデフォルトの S3 管理カタログが自動生成され、ここに新しいデータファイルをレイクハウスに追加できます。さらに Data explorer パネルの (+) Add Data をクリックすると、Redshift Managed Storage に追加の管理カタログを作成する、フェデレーションデータソースに接続する、または管理カタログにデータをアップロードする ことで、レイクハウスを拡張できます。
既存のデータベースやカタログがある場合は、AWS Lake Formation を使用してプロジェクトロールに権限を付与することで、これらをレイクハウスに追加できます。例えば、Redshift クラスターまたはサーバーレス名前空間を Glue Data Catalog に登録することで、Amazon Redshift データウェアハウスをレイクハウスに導入できます。その後、クラスターまたは名前空間の招待を受け入れ、Lake Formation で適切な権限を付与することで、アクセス可能になります。
いいえ、データを移行する必要はありません。SageMaker のレイクハウスアーキテクチャは、Apache Iceberg というオープン規格を利用して、データをその場でアクセス・クエリできるようにします。Amazon S3 データレイク、S3 Tables、Amazon Redshift データウェアハウス内のデータに直接アクセスできます。Snowflake や Google BigQuery データウェアハウスといったフェデレーションデータソースに加え、PostgreSQL や SQL Server といったオペレーショナルデータベースにも接続できます。オペレーショナルデータベースやサードパーティアプリケーションからのデータは、ゼロ ETL 統合を通じてほぼリアルタイムでレイクハウスの管理カタログに取り込め、インフラストラクチャや複雑なパイプラインの維持は不要です。これらに加えて、数百の AWS Glue コネクタを使用して既存のデータソースと統合できます。
Amazon Redshift データウェアハウスを Amazon SageMaker のレイクハウスに導入するには、Redshift 管理コンソールにアクセスし、Action ドロップダウンメニューから Redshift クラスターまたはサーバーレス名前空間を Glue Data Catalog に登録します。その後 Lake Formation にアクセスし、クラスターまたは名前空間の招待を受け入れてフェデレーションカタログを作成し、適切な権限を付与することで、レイクハウス内からアクセス可能になります。手順については、こちらのドキュメントをご覧ください。これらの作業は、AWS コマンドラインインターフェイス (AWS CLI) または API/SDK を使用して実行することも可能です。
S3 データレイクを Amazon SageMaker のレイクハウスに導入するには、まずこちらの手順に従って、S3 データレイクを AWS Glue データカタログに登録してください。AWS Glue データカタログで Amazon S3 データレイクを登録すると、レイクハウス内からデータにアクセス可能になります。AWS Lake Formation では、Unified Studio のプロジェクトロールに権限を付与することで、S3 データレイクを SageMaker Unified Studio で使用可能にできます。
Amazon SageMaker のレイクハウスアーキテクチャは、Amazon S3 データレイク、Amazon Redshift データウェアハウス、サードパーティデータソースにわたるすべてのデータへのアクセスを統合します。Amazon S3 Tables は、Apache Iceberg のサポートを標準搭載した初のクラウドオブジェクトストアを提供します。Amazon SageMaker のレイクハウスは Amazon S3 Tables と連携しており、Amazon Redshift、Amazon Athena、Amazon EMR、AWS Glue といった AWS 分析サービス、または Apache Iceberg 互換エンジン(Apache Spark や PyIceberg)から S3 Tables にアクセスできます。このレイクハウスは、S3 Tables やその他データに対するきめ細かいデータアクセス権限を一元管理し、すべてのエンジンで一貫して適用することも可能にします。
始めるには、Amazon S3 コンソールに移動し、S3 Table バケットと AWS 分析サービスの連携を有効にします。連携が有効になったら、AWS Lake Formation に移動し、S3 Table バケットへの権限を SageMaker Unified Studio のプロジェクトロールに付与します。その後、SageMaker Unified Studio 内の統合分析サービスを使用して、S3 Tables のデータをクエリ・分析できます。Amazon S3 Tables のデータを、Amazon Redshift データウェアハウス、サードパーティ、フェデレーションデータソース(Amazon DynamoDB、Snowflake、PostgreSQL など)といった他のソースのデータと結合することさえ可能です。
レイクハウスは Amazon SageMaker Unified Studio から直接アクセスできます。SageMaker Unified Studio は、レイクハウスからすべてのデータにアクセスし、モデル開発、生成 AI、データ処理、SQL 分析向けの既知の AWS ツールを使用して活用する統合体験を提供します。使用を開始するには、SageMaker Unified Studio で企業の認証情報を使用して SageMaker ドメインにログインできます。SageMaker Unified Studio のいくつかの簡単なステップで、管理者は特定のプロジェクトプロファイルを選択してプロジェクトを作成できます。その後、レイクハウスのデータを扱うプロジェクトを選択できます。プロジェクトを選択すると、データエクスプローラーパネルでレイクハウス内のデータの統合ビューが表示され、クエリエンジンと開発者ツールに単一の場所からアクセスできます。
SageMaker のオープンレイクハウスアーキテクチャは、Apache Iceberg 互換のすべてのツールとエンジンでデータにアクセス・クエリする柔軟性も提供します。SQL、Apache Spark、ビジネスインテリジェンス(BI)、AI/ML ツールなど、お好みの分析ツールやエンジンを使用して、レイクハウス全体に保存されたデータと連携できます。
はい。SageMaker のオープンレイクハウスアーキテクチャにより、Apache Iceberg と互換性のあるすべてのツールとエンジンを使用して、データに柔軟にアクセスしてクエリを実行できます。SQL、Apache Spark、ビジネスインテリジェンス(BI)、AI/ML ツールなど、お好みの分析ツールやエンジンを使用して、レイクハウスに保存されたデータと連携できます。