S3에 대규모 테이블 형식 데이터 저장
Amazon S3 Tables는 Apache Iceberg 지원이 기본 제공되는 최초의 클라우드 객체 저장소를 제공하며 대규모 테이블 형식 데이터를 간단하게 저장할 수 있습니다. 지속적인 테이블 최적화는 백그라운드에서 테이블 데이터를 자동으로 스캔하고 재작성하여 관리되지 않는 Iceberg 테이블에 비해 최대 3배 빠른 쿼리 성능을 달성합니다. 이러한 성능 최적화는 시간이 지남에 따라 계속 개선될 것입니다. 또한, S3 테이블에는 범용 S3 버킷에 저장된 Iceberg 테이블에 비해 초당 최대 10배 더 높은 트랜잭션을 제공하는 Iceberg 워크로드에 특화된 최적화 기능이 포함되어 있습니다. S3 테이블의 쿼리 성능 개선에 대한 자세한 내용은 블로그를 참조하세요.
S3 Tables는 Apache Iceberg 표준을 지원하므로, 테이블 형식 데이터를 널리 사용되는 AWS 및 서드 파티 쿼리 엔진으로 손쉽게 쿼리할 수 있습니다. S3 Tables를 사용하여 일일 구매 트랜잭션, 스트리밍 센서 데이터 또는 광고 노출과 같은 테이블 형식 데이터를 S3에 Iceberg 테이블로 저장하고, 자동 테이블 유지 관리를 사용하여 데이터 진화에 따라 성능 및 비용을 최적화할 수 있습니다. 자세한 내용은 블로그를 참조하세요.
이점
사용 방법
S3 Tables는 정형 데이터를 Apache Parquet 형식으로 저장하기 위한 목적별 S3 스토리지를 제공합니다. 테이블 버킷 내에서 S3에 직접 최고 수준의 리소스로 테이블을 생성할 수 있습니다. 이러한 테이블은 ID 또는 리소스 기반 정책에 정의된 테이블 수준 권한으로 보호할 수 있으며, Apache Iceberg 표준을 지원하는 애플리케이션 또는 도구에서 액세스할 수 있습니다. 테이블 버킷에 테이블을 생성하면 S3의 기본 데이터가 Parquet 데이터로 저장됩니다. 그런 다음 S3는 Parquet 데이터를 애플리케이션에서 쿼리 가능하게 만드는 데 필요한 메타데이터를 유지 관리합니다. 테이블 버킷에는 쿼리 엔진이 테이블 버킷에 있는 테이블의 Iceberg 메타데이터를 탐색하고 업데이트하는 데 사용하는 클라이언트 라이브러리가 포함되어 있습니다. 이 라이브러리를 테이블 작업을 위한 업데이트된 S3 API와 함께 사용하면 여러 클라이언트가 테이블에서 데이터를 안전하게 읽고 쓸 수 있습니다. 시간이 지남에 따라 S3는 객체를 다시 쓰거나 ‘압축’하여 기본 Parquet 데이터를 자동으로 최적화합니다. 압축은 S3의 데이터를 최적화하여 쿼리 성능을 개선하고 비용을 최소화합니다. 자세한 내용은 사용 설명서를 참조하세요.

고객
-
Genesys
Genesys는 AI 기반 경험 오케스트레이션 분야의 글로벌 클라우드 리더입니다. 고급 AI, 디지털 및 인력 참여 관리 기능을 통해 Genesys는 100여 개국의 8,000개 이상의 조직이 향상된 비즈니스 민첩성 및 성과를 통해 개인화되고 공감적인 고객 및 직원 경험을 제공할 수 있도록 지원합니다.
Amazon S3 Tables는 특히 다양한 데이터 분석 요구에 맞는 구체화된 뷰 계층을 효과적으로 생성하는 관리형 Iceberg 지원을 통해 데이터 아키텍처에 혁신적인 추가 기능을 제공할 것입니다. 이 제품은 S3가 압축, 스냅샷 관리, 참조되지 않은 파일 정리와 같은 주요 유지 관리 작업을 자동으로 처리함으로써 테이블 관리의 추가 계층을 배제하여 Genesys가 복잡한 데이터 워크플로를 간소화하는 데 도움이 될 수 있습니다. S3에서 직접 Iceberg 테이블을 읽고 쓸 수 있으면 성능을 향상하고 분석 에코시스템 전반에서 데이터를 원활하게 통합할 수 있는 새로운 가능성을 창출하는 데 도움이 될 것입니다. 이러한 상호 운용성과 성능 향상이 결합되어 S3 Tables는 신속하고 유연하며 신뢰할 수 있는 데이터 인사이트를 제공하기 위한 당사 미래 전략의 중추적인 부분으로 자리매김하고 있습니다.
Glenn Nethercutt, Genesys Chief Technology Officer -
Pendulum
Pendulum은 비디오, 오디오 및 텍스트 콘텐츠 전반에 걸쳐 세계에서 가장 포괄적인 범위를 제공하여 위험과 기회를 사전에 식별하여 기업 전반에서 더 나은 의사 결정 및 모니터링 분석을 가능하게 하는 브랜드 지능형 플랫폼입니다.
Pendulum Intelligence에서는 수억 개의 소셜 채널 및 소스에서 수집한 데이터를 분석합니다. Amazon S3 Tables는 독자적인 기계 학습 도구를 사용하여 이미지 및 기타 미디어에서 컨텍스트를 거의 실시간으로 추출하는 동시에 수천 시간 분량의 분석된 비디오 및 오디오 콘텐츠를 처리하는 데이터 레이크를 관리하는 방식을 혁신했습니다. 압축, 스냅샷, 파일 정리 등 테이블 관리의 부담을 없앰으로써 우리 팀은 가장 중요한 일, 즉 대규모 데이터세트에서 실행 가능한 인사이트를 도출하는 데 집중할 수 있습니다. 분석 스택인 Amazon Athena, AWS Glue, Amazon EMR과 원활하게 통합하여 복잡한 데이터를 대규모로 처리하는 능력이 크게 향상되었습니다.
Abdurrahman Elbuni, 클라우드 빅데이터 아키텍트 - Pendulum -
SnapLogic
SnapLogic은 AI 기반 통합의 선구자입니다. 생성형 통합을 위한 SnapLogic 플랫폼은 작업을 자동화하고, 실시간 의사 결정을 내리고, 기존 워크플로에 손쉽게 통합되는 AI 에이전트 및 통합을 설계, 배포, 관리할 수 있도록 기업 전반의 디지털 트랜스포메이션을 가속화합니다.
Amazon S3 Tables는 Apache Iceberg 지원 및 AWS 분석 서비스 통합 기능이 내장되어 있어 기업이 데이터 분석 비용을 최적화하는 동시에 분석, 규정 준수 및 AI 이니셔티브에 비즈니스 데이터를 사용하는 방식을 혁신할 수 있도록 지원합니다. 복잡한 데이터 관리 작업을 자동화하고 데이터 변경에 대한 완전한 감사 추적을 제공함으로써 팀은 과거 데이터를 즉시 분석하고 규정 준수를 유지하며 비즈니스 인사이트를 가속화하는 동시에 기술 비용을 크게 절감할 수 있습니다.
Dominic Wellington, SnapLogic Enterprise Architect -
Zus Health
Zus는 API, 임베디드 구성 요소, 직접 EHR 통합을 통해 사용하기 쉬운 환자 데이터를 제공하여 의료 데이터 상호 운용성을 가속화하도록 설계된 공유 의료 데이터 플랫폼입니다.
자주 변경되는 환자 데이터를 대량으로 처리하는 의료 기업으로서 당사는 Apache Iceberg에 투자하기로 결정했습니다. Apache Iceberg는 Apache Hive의 파티셔닝 및 자동화와 관련된 많은 문제점을 해결하고 광범위한 상호 운용성이라는 이점을 제공하기 때문입니다. Iceberg에서 가장 큰 과제 중 하나는 테이블 최적화를 이해하고 관리하는 것이었습니다. 이것이 바로 당사가 S3 Tables와 관리형 최적화 기능에 열광하는 이유입니다. 개발자의 테이블 유지 관리 부담을 덜어줄 수 있게 되면 고객에게 고품질 데이터와 귀중한 인사이트를 제공하는 데 더 집중할 수 있기 때문입니다.
Sonya Huang, Zus Health Consulting Software Engineer
파트너 및 통합
-
Daft
Daft는 데이터 엔지니어링, 분석 및 ML/AI를 위한 통합 엔진으로, SQL 및 Python DataFrame 인터페이스를 모두 일류 시민으로 제공하며 Rust로 작성되었습니다. Daft는 빠르고 즐거운 로컬 대화형 경험을 제공하는 동시에 페타바이트 규모의 분산 워크로드로 원활하게 규모를 조정할 수 있습니다.
Amazon S3 Tables는 Daft의 Apache Iceberg 지원을 완벽하게 보완합니다. AWS Lake Formation 및 AWS Glue와의 통합을 활용하여 최적화된 성능을 활용하면서 기존 Iceberg의 읽기 및 쓰기 기능을 S3 Tables로 손쉽게 확장할 수 있었습니다. 이 새로운 서비스가 발전하기를 기대하며, Python 데이터 엔지니어링 및 ML/AI 에코시스템에 필요한 동급 최고의 S3 Tables 지원을 제공하게 되어 기쁩니다.
Sammy Sidhu, CEO 겸 공동 설립자 - Daft -
Dremio
Dremio는 시장을 선도하는 SQL 엔진, 상호 운용 가능한 개방형 데이터 카탈로그, 안전하고 확장 가능하며 사용이 간편한 플랫폼을 제공하여 AI 및 분석을 가속화하는 지능형 레이크하우스 플랫폼입니다. Apache Iceberg, Apache Polaris(인큐베이팅) 및 Apache Arrow 커뮤니티에서 리더십을 발휘함으로써 조직은 완전히 개방된 고성능 레이크하우스 아키텍처를 구축하는 동시에 유연성및 제어를 유지하여 벤더 종속을 제거할 수 있습니다.
Dremio는 Amazon S3 Tables의 일반 가용성을 지원하게 되어 기쁘게 생각합니다. S3 Tables은 Apache Iceberg REST Catalog(IRC) 사양을 지원함으로써 Dremio와의 원활한 상호 운용성을 보장하므로 사용자는 최적화된 S3 Tables 버킷에서 관리되는 Apache Iceberg 테이블을 쿼리할 수 있는 고성능 SQL 엔진의 이점을 활용할 수 있습니다. 이러한 협력을 통해 통합 복잡성을 없애고 고객 채택을 가속화하여 레이크하우스 생태계에서 개방형 표준의 중요성을 강화합니다. Amazon S3 Tables 및 IRC 지원을 통해 조직은 AI 시대에 통합 레이크하우스 아키텍처를 구축하는 데 필요한 유연성 및 선택권을 확보할 수 있습니다.
James Rowland-Jones, 제품 담당 부사장 - Dremio -
DuckDB Labs
DuckDB Labs는 널리 사용되는 범용 데이터 랭글링 도구인 DuckDB의 개발자들이 설립한 회사입니다. 회사는 DuckDB 시스템의 핵심 기여자를 고용합니다. DuckDB는 MIT 라이선스에 따른 무료 오픈 소스 소프트웨어이며 독립 비영리 단체인 DuckDB 재단이 관리합니다. DuckDB 프로젝트는 사용 편의성과 휴대성을 통해 광범위한 사용자가 빠른 분석 처리를 이용할 수 있도록 합니다.
Amazon S3 Tables는 오픈 파일 형식을 사용하여 데이터 분석을 대중화하려는 DuckDB의 비전과 완벽하게 일치합니다. AWS와 DuckDB Labs 간의 협력을 통해 DuckDB의 Iceberg 지원을 더욱 확장하고 S3 Tables와의 원활한 통합을 개발할 수 있습니다. DuckDB와 S3 Tables의 공유 배터리 포함 사고 방식이 강력한 분석 스택으로 결합되어 진입 장벽을 매우 낮게 유지하면서 광범위한 워크로드를 처리할 수 있다고 생각합니다.
Hannes Mühleisen, CEO - DuckDB Labs -
HighByte
HighByte는 글로벌 제조업체가 디지털 혁신에 직면하는 데이터 아키텍처 및 통합 문제를 해결하는 산업용 소프트웨어 회사입니다. 회사의 검증된 산업용 DataOps 소프트웨어인 HighByte Intelligence Hub는 코드리스 인터페이스를 사용하여 모델링되고 바로 사용할 수 있는 데이터를 AWS 클라우드 서비스에 제공하여 통합 시간을 단축하고 분석을 가속화합니다.
Amazon S3 Tables은 분석 워크로드를 위한 테이블 형식 데이터의 관리, 성능 및 스토리지를 최적화하는 강력한 새 기능입니다. HighByte Intelligence Hub가 Amazon S3 Tables와 직접 통합되므로 글로벌 제조업체는 산업 데이터를 위한 개방형 트랜잭션 데이터 레이크를 쉽게 구축할 수 있습니다. S3 Tables를 사용하면 원시 Parquet 데이터를 즉시 쿼리할 수 있으므로 고객은 컨텍스트화된 정보를 엣지에서 클라우드로 전송하여 추가 처리나 변환 없이 즉시 사용할 수 있습니다. 이는 양사 고객의 성능 및 비용 최적화 모두에 큰 영향을 미칩니다.
Aron Semle, 최고 기술 책임자 - HighByte -
PuppyGraph
PuppyGraph는 데이터 팀이 비용이 많이 드는 마이그레이션이나 유지 보수 없이 몇 분 만에 기존 레이크하우스를 그래프로 쿼리할 수 있는 최초의 실시간 Zero-ETL 그래프 쿼리 엔진입니다. 페타바이트 규모의 데이터세트로 조정하고 복잡한 멀티홉 쿼리를 몇 초 만에 실행하여 사기 탐지에서 사이버 보안 및 AI 기반 인사이트에 이르는 사용 사례를 지원합니다.
Amazon S3는 오랫동안 현대 데이터 인프라의 기반이 되어 왔으며 S3 Tables의 출시는 Apache Iceberg를 데이터 및 AI의 범용 표준으로 자리매김하게 하는 중요한 이정표를 세웠습니다. 이러한 혁신을 통해 조직은 S3에서 고성능 개방형 테이블 형식을 활용하여 데이터 중복 없이 다중 엔진 분석을 수행할 수 있습니다. PuppyGraph 고객의 경우 이제 복잡한 ETL의 오버헤드 없이 S3 데이터에서 직접 실시간 그래프 쿼리를 실행하여 신선하고 확장 가능한 인사이트를 유지할 수 있습니다. 그래프 분석을 데이터 자체만큼이나 원활하게 만드는 이러한 발전에 동참하게 되어 매우 기쁩니다.
Weimo Liu, 공동 설립자 겸 CEO - PuppyGraph -
Snowflake
Snowflake는 엔터프라이즈 AI를 간편하고 연결되며 신뢰할 수 있게 만듭니다. 수백 개의 세계 최대 기업을 포함하여 전 세계 수천 개의 기업이 Snowflake의 AI Data Cloud를 사용하여 AI를 통해 데이터를 공유하고 애플리케이션을 구축하며 비즈니스를 강화합니다.
Amazon S3 Tables 에 Snowflake의 마법을 도입하게 되어 매우 기쁩니다. 이 협업을 통해 Snowflake 고객은 기존 Snowflake 설정을 사용하여 S3에 저장된 데이터를 원활하게 읽고 처리할 수 있으므로 복잡한 데이터 마이그레이션이나 복제가 필요하지 않습니다. Snowflake의 세계적 S3_Tables 수준의 성능 분석 기능과 Amazon S3 Tables의 효율적인 Apache Iceberg 테이블 스토리지를 결합하여 조직은 Amazon S3에 저장된 테이블 형식 데이터를 쉽게 쿼리하고 분석할 수 있습니다.
Rithesh Makkena, 파트너 솔루션 엔지니어링 부문 글로벌 디렉터 - Snowflake -
Starburst
Starburst는 분석, AI 및 데이터 애플리케이션에 필요한 기본 데이터 아키텍처를 지원합니다. Apache Iceberg로 구동되는 하이브리드 데이터 레이크하우스 환경을 사용하여 대규모 액세스, 협업 및 거버넌스를 제공합니다.
Amazon S3가 S3 Tables과 함께 Apache Iceberg에 대한 내장 지원을 도입하여 Iceberg 오픈 데이터 레이크하우스 에코시스템을 발전시키는 것을 보게 되어 매우 기쁩니다. S3 Tables 버킷을 통해, 공동 고객이 다양한 분석 및 AI 사용 사례 전반에서 업계 최고의 오픈 소스 MPP SQL 엔진인 최적화된 Trino로 구동되는 Open Lakehouse의 성능을 Amazon S3의 데이터에 적용할 수 있도록 AWS와 협력할 수 있기를 기대합니다.
Matt Fuller, 제품 담당 부사장 - Starburst -
StreamNative
StreamNative는 비용 효율적인 고성능 데이터 수집을 통해 AI 및 분석을 지원하는 메시지 및 스트리밍 플랫폼입니다. StreamNative Ursa 엔진을 사용하면 Kafka와의 호환성, 리더가 없는 아키텍처 및 레이크하우스 네이티브 스토리지를 통해 기업이 총 소유 비용(TCO)을 90% 절감할 수 있으므로 AI 지원 데이터에 대규모로 액세스할 수 있습니다.
Amazon S3 Tables과의 통합으로 AI 지원 실시간 데이터가 그 어느 때보다 개방적이고 액세스가 용이합니다. S3에 기반을 둔 Ursa의 리더리스 아키텍처는 이미 스토리지 비용을 절감하고 있으며, S3 Tables와의 직접 통합은 성능과 효율성을 더욱 향상시킵니다. AI 기반 세상에서는 데이터 거버넌스가 매우 중요합니다. StreamNative에서는 기업이 TCO를 90% 절감하는 동시에 관리되는 실시간 데이터로 AI 기반 애플리케이션을 쉽고 저렴하게 구축할 수 있도록 지원하기 위해 최선을 다하고 있습니다.
Sijie Guo, CEO 겸 공동 설립자 - StreamNative