메인 콘텐츠로 건너뛰기

레이크하우스 아키텍처

레이크하우스 아키텍처 FAQ

일반

모두 열기

차세대 Amazon SageMaker는 개방형 레이크하우스 아키텍처를 기반으로 하며 Apache Iceberg와 완전하게 호환됩니다. S3 Tables와 Amazon Redshift 데이터 웨어하우스를 비롯한 Amazon S3 데이터 레이크의 모든 데이터를 통합하여 하나의 데이터 사본만으로도 강력한 분석 및 AI/ML 애플리케이션을 구축할 수 있도록 지원합니다. 운영 데이터베이스 및 애플리케이션과의 Zero-ETL 통합, 데이터 소스와의 쿼리 페더레이션, 원격 Apache Iceberg 테이블의 카탈로그 페더레이션을 통해 추가 소스의 데이터를 연결합니다. Zero-ETL 통합을 통해 Amazon DynamoDB, Amazon Aurora mySQL과 같은 운영 데이터베이스와 SAP, Salesforce와 같은 애플리케이션의 데이터를 레이크하우스로 거의 실시간으로 가져올 수 있습니다. Google BigQuery, Snowflake 등과 같은 데이터 소스 전반에서 페더레이션된 쿼리 기능을 사용하여 데이터를 이동하지 않고도 액세스하고 쿼리할 수 있습니다. 원격 Iceberg 카탈로그에 대해 카탈로그 페더레이션을 사용하면, S3에 저장되고 Databricks Unity Catalog, Snowflake Polaris Catalog 또는 사용자 지정 Iceberg-REST 카탈로그에 등록된 Iceberg 테이블을 AWS 분석 엔진에서 바로 액세스할 수 있습니다. 모든 Iceberg 호환 도구와 엔진을 사용하여 데이터를 이동하지 않고도 바로 액세스하고 쿼리할 수 있는 유연성을 제공합니다. 모든 분석 및 기계 학습(ML) 도구와 엔진에 적용되는 통합 액세스 제어를 정의하여 데이터를 보호합니다.

레이크하우스 아키텍처에는 주로 세 가지 이점이 있습니다.

  • 통합 데이터 액세스: 레이크하우스는 S3 Tables 및 Amazon Redshift 데이터 웨어하우스를 비롯한 Amazon S3 데이터 레이크 전반의 데이터를 통합합니다. 운영 데이터베이스 및 애플리케이션과의 Zero-ETL 통합, 데이터 소스와의 쿼리 페더레이션, 원격 Apache Iceberg 테이블의 카탈로그 페더레이션을 통해 추가 소스의 데이터를 연결합니다. Zero-ETL 통합을 통해 Amazon DynamoDB, Amazon Aurora mySQL과 같은 운영 데이터베이스와 SAP, Salesforce와 같은 애플리케이션의 데이터를 레이크하우스로 거의 실시간으로 가져올 수 있습니다. Google BigQuery, Snowflake 등과 같은 데이터 소스 전반에서 페더레이션된 쿼리 기능을 사용하여 데이터를 이동하지 않고도 액세스하고 쿼리할 수 있습니다. 카탈로그 페더레이션을 사용하면, S3에 저장되고 Databricks Unity Catalog, Snowflake Polaris Catalog 또는 사용자 지정 Iceberg-REST 카탈로그에 등록된 Iceberg 테이블을 AWS 분석 엔진에서 직접 액세스할 수 있습니다.
  • Apache Iceberg 호환성: 레이크하우스는 Apache Iceberg와 호환되는 다양한 AWS 서비스, 오픈 소스 도구, 서드파티 엔진을 통해 데이터를 이동하지 않고도 전체 데이터에 액세스하고 쿼리할 수 있는 유연성을 제공합니다. SQL, Apache Spark, 비즈니스 인텔리전스(BI), AI/ML 도구 등 원하는 분석 도구 및 엔진을 사용하고 Amazon S3 또는 Amazon Redshift에 저장된 하나의 데이터 복사본만으로도 협업이 가능합니다.
  • 안전한 데이터 액세스: 테이블, 열 또는 셀 수준의 세밀한 통합 액세스 제어를 통해 데이터를 보호하고 모든 분석 도구 및 엔진에 이러한 권한을 적용합니다. 보안 요구 사항에 맞게 태그 기반, 속성 기반 또는 역할 기반 액세스 정책을 사용합니다. 복사본을 만들지 않고도 조직 전체에서 데이터를 공유합니다.

Amazon SageMaker는 데이터 자산 전반의 데이터를 통합하는 개방형 레이크하우스 아키텍처를 기반으로 구축되었습니다. 다양한 소스의 데이터는 카탈로그라는 논리적 컨테이너에 정리됩니다. 각 카탈로그는 Amazon Redshift 데이터 웨어하우스, S3 데이터 레이크 또는 데이터베이스와 같은 소스를 나타냅니다. 또한 새 카탈로그를 생성하여 Amazon S3 또는 Redshift Managed Storage(RMS)에 데이터를 저장할 수 있습니다. 레이크하우스는 SageMaker Unified Studio에서 직접 액세스할 수 있으며, 레이크하우스의 데이터는 Apache Spark, Athena 또는 Amazon EMR과 같은 Apache Iceberg 호환 엔진에서 액세스할 수 있습니다. 또한 SQL 도구를 사용하여 레이크하우스의 데이터에 연결하고 분석할 수도 있습니다. 데이터에 액세스하는 도구 및 엔진 전반에 적용되는 세분화된 액세스 제어를 정의하여 데이터를 보호합니다.

기능

모두 열기

Amazon SageMaker는 데이터에 대한 액세스 제어를 두 가지 기능으로 통합합니다. 1) 레이크하우스에서는 세분화된 권한을 정의할 수 있습니다. 이러한 권한은 Amazon EMR, Athena, Amazon Redshift와 같은 쿼리 엔진에 의해 적용됩니다. 2) 레이크하우스를 사용하면 데이터를 이동하지 않고도 액세스할 수 있으므로 데이터 복사본을 생성할 필요가 없습니다. 하나의 데이터 복사본과 하나의 액세스 제어 정책 세트를 유지 관리하여 레이크하우스에서 세분화된 통합 액세스 제어의 이점을 활용할 수 있습니다.

SageMaker의 레이크하우스 아키텍처는 AWS Glue Data Catalog, Lake Formation, Amazon Redshift에서 여러 기술 카탈로그를 사용하여 데이터 레이크 및 데이터 웨어하우스 전반에서 통합된 데이터 액세스를 제공합니다. SageMaker의 레이크하우스는 AWS Glue Data Catalog와 Lake Formation을 사용하여 테이블 정의 및 권한을 저장합니다. Lake Formation의 세분화된 권한은 레이크 하우스에 정의된 테이블에 사용할 수 있습니다. AWS Glue Data Catalog에서 테이블 정의를 관리하고 테이블 수준, 열 수준, 셀 수준 권한과 같은 세분화된 권한을 정의하여 데이터를 보호할 수 있습니다. 또한 교차 계정 데이터 공유 기능을 사용하면 제로 복사 데이터 공유를 활성화하여 안전한 협업에 데이터를 사용할 수 있습니다.

예. 레이크하우스에 액세스하려면 오픈 소스 Apache Iceberg 클라이언트 라이브러리가 필요합니다. Apache Spark, Trino와 같은 서드 파티 또는 자체 관리형 오픈 소스 엔진을 사용하는 고객은 레이크하우스에 액세스하기 위해 쿼리 엔진에 Apache Iceberg 클라이언트 라이브러리를 포함해야 합니다.

예. Apache Iceberg 클라이언트 라이브러리를 사용하면 Amazon EMR, AWS Glue, Athena 및 Amazon SageMaker 또는 서드 파티 Apache Spark와 같은 AWS 서비스의 Apache Spark 엔진을 통해 기존 Amazon Redshift에서 데이터를 읽고 쓸 수 있습니다. 하지만 테이블에 데이터를 쓰려면 해당 테이블에 대한 적절한 쓰기 권한이 있어야 합니다.

예. Apache Spark와 같은 원하는 엔진을 사용하여 여러 데이터베이스 간에 Amazon S3의 데이터 레이크 테이블을 Amazon Redshift 데이터 웨어하우스의 테이블과 조인할 수 있습니다.

이제 Amazon S3 Tables가 SageMaker Lakehouse와 원활하게 통합됨에 따라 S3 데이터 레이크, Amazon Redshift 데이터 웨어하우스 및 타사 데이터 소스의 데이터를 S3 Tables에 쉽게 쿼리하고 결합할 수 있습니다. SageMaker Lakehouse는 Apache Iceberg 개방형 표준을 사용해 S3 Tables, S3 버킷, Redshift 데이터 웨어하우스 전반에서 데이터를 이동 없이 직접 액세스하고 쿼리할 수 있는 유연성을 제공합니다. 세분화된 권한을 정의하여 레이크하우스의 데이터를 보호하고 중앙에서 관리할 수 있으며, 이러한 권한은 모든 분석 및 ML 도구와 엔진에 일관적으로 적용됩니다.

제로 ETL 통합

모두 열기

SageMaker의 레이크하우스는 Amazon DynamoDB, Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS MySQL과 Zero-ETL의 통합을 지원하며, SAP, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk, Zoho CRM 등 8개 애플리케이션과도 연동됩니다.

AWS Glue 콘솔을 통해 Zero-ETL 통합을 구성하고 모니터링할 수 있습니다. 데이터가 수집되면 Apache Iceberg와 호환되는 쿼리 엔진에서 데이터에 액세스하고 쿼리할 수 있습니다. 자세한 내용은 제로 ETL 통합을 참조하세요.

제로 ETL 요금에 대해 자세히 알아보려면 SageMaker LakehouseAWS Glue 요금 페이지를 참조하세요.

요금

모두 열기

자세한 내용은 SageMaker의 레이크하우스 요금을 참조하세요.

가용성

모두 열기

Amazon SageMaker의 다음 세대는 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오리건), 아시아 태평양(홍콩), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 캐나다(중부), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(스톡홀름) 및 남아메리카(상파울루) 리전에서 사용 가능합니다. 향후 업데이트는 AWS 리전 서비스 목록을 참조하세요.

예. 레이크하우스는 AWS Glue Data Catalog에 메타데이터를 저장하고 Amazon Glue와 동일한 SLA를 제공합니다.

시작하기

모두 열기

Amazon SageMaker Unified Studio에서 SageMaker의 레이크하우스에 직접 액세스할 수 있습니다. SageMaker Unified Studio에서 새 프로젝트를 만들거나 기존 프로젝트를 선택할 수 있습니다. 프로젝트에서 왼쪽 탐색 메뉴의 데이터를 클릭하면 데이터 탐색기 패널이 표시됩니다. 데이터 탐색기 패널에서는 레이크하우스에서 액세스할 수 있는 데이터를 볼 수 있습니다. 시작하는 데 도움이 되도록, 프로젝트와 함께 기본 S3 관리형 카탈로그가 자동으로 생성되며, 이를 통해 레이크하우스에 새로운 데이터 파일을 추가할 수 있습니다. 또한 데이터 탐색기 패널에서 데이터 추가(+)를 클릭하면 Redshift Managed Storage에서 추가 관리형 카탈로그를 만들거나, 페더레이션된 데이터 소스에 연결하거나, 관리형 카탈로그에 데이터를 업로드하여 레이크하우스를 계속 구축할 수 있습니다.

이미 보유한 데이터베이스와 카탈로그가 있다면, AWS Lake Formation을 사용해 프로젝트 역할에 권한을 부여함으로써 레이크하우스에 추가할 수 있습니다. 예를 들어, Glue Data Catalog에 Redshift 클러스터 또는 서버리스 네임스페이스를 등록하여 Amazon Redshift 데이터 웨어하우스를 레이크하우스로 가져올 수 있습니다. 그런 다음 클러스터 또는 네임스페이스 초대를 수락하고 Lake Formation에서 적절한 권한을 부여하여 액세스 가능하도록 설정합니다.

아니요, 데이터를 마이그레이션할 필요가 없습니다. SageMaker의 레이크하우스 아키텍처를 사용하면 Apache Iceberg의 개방형 표준으로 데이터를 이동하지 않고도 액세스하고 쿼리할 수 있습니다. Amazon S3 데이터 레이크, S3 Tables 및 Amazon Redshift 데이터 웨어하우스에 있는 데이터에 직접 액세스할 수 있습니다. 또한 Snowflake 및 Google BigQuery 데이터 웨어하우스와 같은 페더레이션된 데이터 소스는 물론 PostgreSQL 및 SQL Server와 같은 운영 데이터베이스에도 연결할 수 있습니다. 인프라 또는 복잡한 파이프라인을 유지할 필요 없이 Zero-ETL 통합을 통해 운영 데이터베이스 및 서드파티 애플리케이션의 데이터를 레이크하우스의 관리형 카탈로그로 거의 실시간으로 가져올 수 있습니다. 이 외에도 수백 개의 AWS Glue 커넥터를 사용하여 기존 데이터 소스와 통합할 수 있습니다. 

Amazon Redshift 데이터 웨어하우스를 Amazon SageMaker의 레이크하우스로 가져오려면, Redshift 관리 콘솔로 이동하여 작업 드롭다운 메뉴에서 Redshift 클러스터 또는 서버리스 네임스페이스를 Glue Data Catalog에 등록하세요. 그런 다음 Lake Formation으로 이동하여 클러스터 또는 네임스페이스 초대를 수락하여 페더레이션된 카탈로그를 생성하고 레이크하우스에서 액세스할 수 있도록 적절한 권한을 부여할 수 있습니다. 지침은 여기의 설명서에서 확인할 수 있습니다. 이러한 작업은 AWS Command Line Interface(AWS CLI) 또는 API/SDK를 사용하여 수행할 수도 있습니다.

S3 데이터 레이크를 Amazon SageMaker의 레이크하우스로 가져오려면 먼저 여기의 지침에 따라 AWS Glue Data Catalog에서 S3 데이터 레이크를 카탈로그화해야 합니다. AWS Glue Data Catalog를 사용하여 Amazon S3 데이터 레이크를 카탈로그화하면 레이크하우스에서 데이터에 액세스할 수 있습니다. AWS Lake Formation에서 Unified Studio 프로젝트 역할에 권한을 부여하여 SageMaker Unified Studio에서 S3 데이터 레이크를 사용하도록 합니다. 

Amazon SageMaker의 레이크하우스 아키텍처는 Amazon S3 데이터 레이크, Amazon Redshift 데이터 웨어하우스, 타사 데이터 소스 전반에서 모든 데이터에 대한 액세스를 통합합니다. Amazon S3 Tables는 Apache Iceberg 지원이 기본 제공되는 최초의 클라우드 객체 저장소를 제공합니다. Amazon SageMaker의 레이크하우스는 Amazon S3 Tables와 통합되므로 Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue 또는 Apache Iceberg 호환 엔진(Apache Spark 또는 PyIceberg)과 같은 AWS 분석 서비스에서 S3 Tables에 액세스할 수 있습니다. 또한 레이크하우스를 사용하면 S3 Tables 및 기타 데이터에 대해 세분화된 데이터 액세스 권한을 중앙에서 관리하고 이를 모든 엔진에 일관되게 적용할 수 있습니다.


시작하려면 Amazon S3 콘솔로 이동하여 S3 Table 버킷과 AWS 분석 서비스의 통합을 활성화합니다. 통합이 활성화되면 AWS Lake Formation으로 이동하여 SageMaker Unified Studio 프로젝트 역할에 S3 Table 버킷에 대한 권한을 부여합니다.. 그런 다음 SageMaker Unified Studio의 통합 분석 서비스를 사용하여 S3 Tables의 데이터를 쿼리하고 분석할 수 있습니다. Amazon S3 Tables의 데이터를 Amazon Redshift 데이터 웨어하우스, 타사 및 페더레이션된 데이터 소스(Amazon DynamoDB, Snowflake 또는 PostgreSQL)와 같은 다른 소스와 조인할 수도 있습니다. 

Amazon SageMaker Unified Studio에서 레이크하우스에 직접 액세스할 수 있습니다. SageMaker Unified Studio는 모델 개발, 생성형 AI, 데이터 처리 및 SQL 분석을 위한 친숙한 AWS 도구를 사용하여 레이크하우스의 모든 데이터에 액세스하고 이를 활용할 수 있는 통합 환경을 제공합니다. 시작하려면 SageMaker Unified Studio에서 기업 자격 증명을 사용하여 SageMaker 도메인에 로그인할 수 있습니다. SageMaker Unified Studio에서 몇 가지 간단한 단계를 통해 관리자는 특정 프로젝트 프로필을 선택하여 프로젝트를 생성할 수 있습니다. 레이크하우스에서 데이터로 작업을 수행할 프로젝트를 선택할 수 있습니다. 프로젝트를 선택하면 데이터 탐색기 패널에서 레이크하우스의 데이터를 통합적으로 볼 수 있고 한 곳에서 쿼리 엔진과 개발자 도구에 액세스할 수 있습니다.

SageMaker의 개방형 레이크하우스 아키텍처는 또한 모든 Apache Iceberg와 호환되는 도구 및 엔진으로 데이터에 액세스하고 쿼리할 수 있는 유연성을 제공합니다. SQL, Apache Spark, 비즈니스 인텔리전스(BI), AI/ML 도구와 같은 원하는 분석 도구 및 엔진을 사용하고 레이크하우스 전체에 저장된 데이터를 사용하여 협업할 수 있습니다.

예. SageMaker의 개방형 Lakehouse 아키텍처는 Apache Iceberg와 호환되는 모든 도구와 엔진을 통해 데이터에 액세스하고 쿼리할 수 있는 유연성을 제공합니다. SQL, Apache Spark, 비즈니스 인텔리전스(BI), AI/ML 도구 등 원하는 분석 도구 및 엔진을 사용하고 레이크하우스에 저장된 데이터로 협업할 수 있습니다.