- Amazon SageMaker›
- 資料湖倉架構›
- 常見問答集
資料湖倉架構常見問答集
一般
全部開啟Amazon SageMaker 新一代版本建置於開放式湖倉架構之上,並與 Apache Iceberg 完全相容。該服務能夠統一 Amazon S3 資料湖 (包括 S3 Tables) 與 Amazon Redshift 資料倉儲中的所有資料,從而有助於在單一資料副本上建置強大的分析和 AI/ML 應用程式。透過與營運資料庫及應用程式進行零 ETL 整合,與資料來源進行查詢聯合,以及遠端 Apache Iceberg 資料表的型錄聯合,來連線其他來源的資料。藉助零 ETL 整合功能,在您的資料庫倉,近乎即時地使用 Amazon DynamoDB、Amazon Aurora mySQL 等營運資料庫,以及 SAP、Salesforce 等應用程式中的資料。憑藉跨資料來源的聯合查詢功能,來存取及查詢就地資料,例如 Google BigQuery、Snowflake,等等。藉助遠端 Iceberg 型錄的型錄聯合,可透過 AWS 分析引擎,直接存取存放於 S3 且在 Databricks Unity Catalog、Snowflake Polaris Catalog,以及任何自訂 Iceberg-REST 型錄中編目的 Iceberg 資料表。使用與 Iceberg 相容的工具和引擎,獲得就地存取和查詢您的資料的靈活性。透過定義整合式存取控制項來保護您的資料,這些許可在所有分析和機器學習 (ML) 工具與引擎中強制執行。
資料湖倉架構主要具備以下三個優勢︰
- 統一的資料存取權︰資料湖倉跨 Amazon S3 資料湖統一資料,包括 S3 Tables 和 Amazon Redshift 資料倉儲。透過與營運資料庫及應用程式進行零 ETL 整合,與資料來源進行查詢聯合,以及遠端 Apache Iceberg 資料表的型錄聯合,來連線其他來源的資料。藉助零 ETL 整合功能,在您的資料庫倉,近乎即時地使用 Amazon DynamoDB、Amazon Aurora mySQL 等營運資料庫,以及 SAP、Salesforce 等應用程式中的資料。憑藉跨資料來源的聯合查詢功能,來存取及查詢就地資料,例如 Google BigQuery、Snowflake,等等。使用型錄聯合,透過 AWS 分析引擎,直接存取存放於 S3 且在 Databricks Unity Catalog、Snowflake Polaris Catalog,以及任何自訂 Iceberg-REST 型錄中編目的 Iceberg 資料表。
- Apache Iceberg 相容性︰資料湖倉讓您可以靈活地從與 Apache Iceberg 相容的各種 AWS 服務以及開放原始碼和第三方工具和引擎中就地存取和查詢所有資料。您可以使用自己選擇的分析工具和引擎,例如 SQL、Apache Spark、商業智慧 (BI) 和 AI/ML 工具,並與儲存在 Amazon S3 或 Amazon Redshift 中的單一資料副本進行協作。
- 保障資料存取權的安全性︰透過資料表、資料欄的整合式、精細存取控制項,或者儲存格層級存取控制項來保障所有資料的安全性,以及跨所有分析工具與引擎強制執行這些許可。利用標籤型、屬性型或角色型存取政策,來滿足您的安全要求。無需建立副本即可跨組織分享資料。
Amazon SageMaker 在開放式資料湖倉架構基礎上建置,能夠統一您的整個資料庫資產中的資料。不同來源的資料會在稱為型錄的邏輯容器內進行整理。每個型錄代表 Amazon Redshift 資料倉儲、S3 資料湖或資料庫等來源。此外,您還可建立新的型錄,用於在 Amazon S3 或 Redshift Managed Storage (RMS) 中存放資料。透過 SageMaker Unified Studio 直接存取資料湖倉,以及透過 Apache Spark、Athena 或 Amazon EMR 等與 Apache Iceberg 相容的引擎直接存取資料湖倉中的資料。另外,您亦可使用各種 SQL 工具,來連線及分析資料湖倉中的資料。藉由定義精細的存取控制項可保障資料的安全性,在存取資料的各種工具和引擎中會強制執行這些存取控制項。
功能
全部開啟Amazon SageMaker 使用兩種功能統一資料存取控制:1) 資料湖倉可讓您定義精細的許可。這些許可由 Amazon EMR、Athena 和 Amazon Redshift 等查詢引擎強制執行。2) 資料湖倉可讓您就地存取資料,從而無需建立資料副本。您可以維護單一資料副本和一組存取控制政策,從而受益於資料湖倉中的統一精細存取控制。
SageMaker 的資料湖倉架構使用 AWS Glue Data Catalog、Lake Formation 和 Amazon Redshift 中的多個技術型錄為基礎建置,以提供跨資料湖和資料倉儲的統一資料存取。該服務使用 AWS Glue Data Catalog 和 Lake Formation 來儲存資料表定義和許可。Lake Formation 精細許可適用於資料湖倉中定義的資料表。您可以在 AWS Glue Data Catalog 中管理資料表定義,並定義精細的許可,例如資料表層級、欄層級和儲存格層級許可,以此保護您的資料。此外,使用跨帳戶資料共用功能,您可以啟用零副本資料共用,讓資料可供安全協作使用。
是。需要使用開放原始碼的 Apache Iceberg 用戶端程式庫來存取資料湖倉。使用第三方或自我管理的開放原始碼引擎 (例如 Apache Spark 或 Trino) 的客戶需要在查詢引擎中包含 Apache Iceberg 用戶端程式庫,才能存取資料湖倉。
是,您可以使用 Apache Iceberg 用戶端程式庫,從 AWS 服務 (例如 Amazon EMR、AWS Glue、Athena 和 Amazon SageMaker 或第三方 Apache Spark) 上的 Apache Spark 引擎讀取和寫入資料至現有的 Amazon Redshift。但是,您必須具備資料表的適當寫入許可,才能將資料寫入這些資料表。
是,您可以使用選擇的引擎 (例如 Apache Spark),將 Amazon S3 上的資料湖表與跨多個資料庫的 Amazon Redshift 資料倉儲中的資料表聯結。
Amazon S3 Tables 現在可與 SageMaker 資料湖倉無縫整合,使得以 S3 資料湖、Amazon Redshift 資料倉儲和第三方資料來源的資料查詢和加入 S3 Tables 變得更加簡單。SageMaker 資料湖倉提供使用 Apache Iceberg 開放標準存取和查詢 S3 Tables、S3 儲存貯體和 Redshift 倉儲之間就地資料的靈活性。您可以透過定義精細的許可 (這些許可會於所有分析和 ML 工具和引擎中一致地套用) 來保護和集中管理湖倉中的資料。
零 ETL 整合
全部開啟您可透過 AWS Glue 主控台,來設定及監控您的零 ETL 整合功能。一旦擷取資料,您就可以從 Apache Iceberg 相容的查詢引擎存取和查詢資料。如需詳細資訊,請造訪零 ETL 整合。
如需進一步了解零 ETL 的定價,請造訪 SageMaker 的資料湖倉和 AWS Glue 定價頁面。
定價
全部開啟如需了解詳細資訊,請造訪 SageMaker 的資料湖倉定價頁面。
可用性
全部開啟新一代 Amazon SageMaker 在美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、亞太地區 (香港)、亞太地區 (首爾)、亞太地區 (新加坡)、亞太地區 (雪梨)、亞太地區 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (斯德哥爾摩) 和南美洲 (聖保羅) 區域開放使用。如需了解未來更新,請參閱 AWS 區域服務清單。
是。資料湖倉會將中繼資料儲存在 AWS Glue Data Catalog 中,並提供與 Amazon Glue 相同的 SLA。
入門
全部開啟透過 Amazon SageMaker Unified Studio 可存取 SageMaker 中的資料湖倉。您可在 SageMaker Unified Studio 中,建立一個新的專案,或者選取一個現有的專案。您可在專案中,點選左側導覽中的「資料」,來檢視資料總管面板。透過資料總管面板,您可建置在資料湖倉中擁有存取權的資料。您的專案可自動建立預設的 S3 受管型錄,以協助您開始使用,您可在此新增資料檔案至資料湖倉。另外,在資料總管面板中,若點選 (+) 新增資料,您可在 Redshift Managed Storage 中建立額外的受管型錄、連線至聯合資料來源,或者上傳資料至您的受管型錄,藉此來繼續建置您的資料湖倉。
若目前已有資料庫與型錄,您可使用 AWS Lake Formation,向您的專案角色授予許可,來新增資料庫與型錄至資料湖倉。舉例來說,您可藉由在 Glue Data Catalog 註冊 Redshift 叢集或無伺服器命名空間,在資料湖倉中使用您的 Amazon Redshift 資料倉儲。您隨後可接受叢集或命名空間邀請,然後在 Lake Formation 中授予適當的許可,使其可供存取。
否,您不需要遷移您的資料。SageMaker 的資料湖倉架構可讓您使用 Apache Iceberg 的開放標準就地存取和查詢資料。您可以直接存取 Amazon S3 資料湖、S3 Tables 和 Amazon Redshift 資料倉儲中的資料。此外,您亦可連線至 Snowflake 及 Google BigQuery 資料倉儲等聯合資料來源,以及 PostgreSQL 及 SQL Server 等營運資料庫。透過零 ETL 整合功能,無須維護基礎機構或複雜的管道,即可在資料湖的受管型錄中,近乎即時地使用營運資料庫及第三方應用程式的資料。除此之外,您還可以使用數百個 AWS Glue 連接器與現有的資料來源整合。
Amazon SageMaker 的資料湖倉架構可統一存取 Amazon S3 資料湖、Amazon Redshift 資料倉儲,以及第三方資料來源的所有資料。Amazon S3 Tables 提供了首個具有內建 Apache Iceberg 支援的雲端物件存放區。Amazon SageMaker 的資料湖倉與 Amazon S3 Tables 整合,以便您透過 AWS 分析服務來存取 S3 Tables,例如 Amazon Redshift、Amazon Athena、Amazon EMR、AWS Glue 或與 Apache Iceberg 相容的引擎 (Apache Spark 或 PyIceberg)。此外,Lakehouse 還可集中式管理 S3 Tables 及其他資料的精細資料存取許可,以及持續一致地跨所有引擎套用這些許可。
如需開始使用,導覽至 Amazon S3 主控台,以及啟用 S3 Table 儲存貯體與 AWS 分析服務的整合功能。一旦啟用整合功能,導覽至 AWS Lake Formation,可授予許可至 S3 Table 儲存貯體及 SageMaker Unified Studio 專案角色。您隨後可使用 SageMaker Unified Studio 中的整合式分析服務,來查詢及分析 S3 Tables 中的資料。您甚至可聯結 Amazon S3 Tables 中的資料與其他來源的資料,例如 Amazon Redshift 資料倉儲、第三方,以及聯合資料來源 (Amazon DynamoDB、Snowflake 或 PostgreSQL)。
透過 Amazon SageMaker Unified Studio 可直接存取資料湖倉。SageMaker Unified Studio 提供了整合式體驗,讓您能夠透過資料湖倉來存取所有資料,以及使用各種熟悉的 AWS 工具,將資料用於進行模型開發、生成式 AI、資料處理,以及 SQL 分析。若要開始使用,您可以使用 SageMaker Unified Studio 上的公司憑證登入自己的 SageMaker 網域。藉助 SageMaker Unified Studio 中的幾個簡短步驟,管理員可以透過選擇特定專案設定檔來建立專案。然後,您可以選擇一個專案來處理資料湖倉中的資料。一旦選取專案,即可前往資料總管面板,取得資料湖倉中資料的統一檢視,還可在一處存取您的查詢引擎與開發人員工具。
SageMaker 的開放資料湖倉架構,還可讓您能夠靈活地使用與所有 Apache Iceberg 相容的工具和引擎來存取和查詢資料。您可以使用自己選擇的分析工具和引擎,例如 SQL、Apache Spark、商業智慧 (BI) 和 AI/ML 工具,並與跨資料湖倉存放的資料進行協作。
是。SageMaker 的開放資料湖倉架構,讓您能夠靈活地使用與所有 Apache Iceberg 相容的工具和引擎來存取和查詢資料。您可以使用自己選擇的分析工具和引擎,例如 SQL、Apache Spark、商業智慧 (BI) 和 AI/ML 工具,並與存放於資料湖倉中的資料進行協作。