AWS 기술 블로그
Category: Amazon Simple Storage Service (S3)
AWS 분석 서비스에서 Apache Iceberg 활용하기
What is Iceberg? Apache Iceberg는 페타바이트 기반의 데이터를 위한 오픈소스 데이터 테이블 형식으로, Netflix에서 개발하여 2020년부터 아파치 재단의 오픈소스로서 활용되었습니다. Apache Iceberg의 가장 큰 특징은 데이터 레이크에 저장된 대규모 데이터 세트를 테이블로 관리하며 Upsert, 스키마 진화, Time Travel query 등의 데이터 처리를 지원한다는 것입니다. 이러한 기능은 Apache Iceberg가 ACID를 보장하기 때문에 가능합니다. 기존의 Apache Hive […]
LucidLink와 Leostream으로 PCoIP 원격 영상 편집 시스템 구성하기
NLE(Non-linear editing)는 Post Production에서 방송 영상 편집을 위한 고성능의 NLE Workstation을 사용하여 Adobe Premiere Pro, Grass Valley Eidus 와 같은 방송사에서 사용 되는 다양한 영상 편집 솔루션을 통해 짧은 레이턴시 기반으로 전문적으로 영상을 편집할 수있습니다. 방송사의 경우, 전문적이고 큰 규모의 방송 영상 편집이 동시에 수백 개의 NLE Workstation에서 작업이 이루어질 수 있으며, 다양한 환경에서의 높아져만 […]
AWS DataSync를 활용하여 Wasabi Object Storage를 Amazon S3로 마이그레이션하기
본 게시글은 AWS Storage Blog에 게시된 ‘Migrating Wasabi Object Storage to Amazon S3 using AWS DataSync’ by Emil Richardsen Nedregård and Darryl Diosomito을 한국어 번역 및 편집하였습니다. 많은 조직이 클라우드 서비스 제공자 간에 상당한 양의 객체 데이터를 전송하는 작업에 직면하고 있으며, 이러한 데이터 전송의 배경에는 다양한 시나리오가 있습니다. 이러한 시나리오에는 데이터 통합, 워크로드 마이그레이션, 데이터 획득, […]
Amazon Macie를 활용한 민감 데이터 탐지 및 보호조치 자동화
많은 고객들이 AWS에서 각종 데이터 및 로그를 보관하고 활용하기 위해서 Amazon Simple Storage Service (S3)를 기본 스토리지로 선택합니다. S3는 안정적이면서 저렴하고 또한 간편하게 생성이 가능하여 다양한 버킷들이 활발하게 생성되고 여러 서비스와 계정에 공유되어 사용됩니다. 비지니스가 성장하면서 S3와 같은 공유 리소스에 저장되는 데이터의 양이 방대하게 늘어나고 있으며, 이로 인해 수많은 버킷에 있는 엄청난 양의 데이터들이 의도한 […]
다중 라이브 스트리밍 채널을 Amazon IVS의 썸네일기반 멀티뷰로 모니터링하기
저지연 라이브 스트리밍 방송은 쇼핑, 게임, 스포츠 등 다양한 분야에서 활용이 가능합니다. Amazon IVS (Amazon Interactive Video Service)는 저지연 대화형 라이브 스트리밍을 지원하는 서비스로 브로드캐스팅을 위한 쉬운 설정과 인제스트부터 플레이어까지 End-to-End 서비스를 제공하고 있기때문에 미디어 비즈니스를 필요로 하는 고객에게 다양한 형태로 활용되고 있습니다. 또한 Amazon IVS는 Amzon CloudWatch에서 미디어에 대한 다양한 모니터링 지표를 제공하고 있어서 […]
AWS에서의 Transactional Data Lake를 위한 오픈 테이블 형식(Open table format) 선택 가이드
이 글은 AWS Big Data Blog의 Choosing an open table format for your transactional data lake on AWS by Shana Schipers, Ian Meyers, and Carlos Rodrigues의 한국어 번역 및 편집본입니다. 2023년 8월: 이 게시물은 Amazon Redshift의 Apache Iceberg 지원을 포함하도록 업데이트되었습니다. 참고사항 – 오픈 테이블 형식(Open table format) 에 대한 AWS 서비스 지원의 급속한 발전으로 […]
Amazon Kendra로 모든 유형의 자료 검색 구축하기 [1부-인덱스 생성과 문서 검색]
자료 검색 엔진 구축을 위해서는 편리한 UI/UX 제공, 빅데이터 및 인공지능 기술의 활용, 검색 엔진을 활용한 분석 및 시각화 등을 제공하여야 하며 다양한 데이터 소스를 연결하여 분산되어 있는 자료를 검색하고 관리하는 것이 필요합니다. 이러한 검색 엔진 구축을 통해 기업의 직원들은 필요한 정보를 훨씬 빠르게 찾고, 더 효과적으로 협업하며, 새로운 제품을 빠르게 개발할 수 있습니다. Amazon […]
Amazon SageMaker를 활용한 기계 학습에서 EFS 안의 민감 정보를 삭제하기 위한 서버리스 솔루션
민감 정보를 활용하는 기계 학습 환경 기계 학습 훈련 과정에서 개인 식별 정보나 생체 인식 정보 등 민감한 정보를 다루는 경우가 있습니다. 무엇보다 안전하게 데이터를 활용해야 해서 보안을 중요하게 생각해야 합니다. 네트워크 접근 통제와 사용자 접근 관리, 암호화, 이상 감지 등 다양한 방법으로 안전한 기계 학습이 이루어지도록 해야 합니다. 또한 1년 이상 장기 미사용 사용자는 […]
Amazon CloudFront를 활용한 미디어 서비스 모니터링 방안, 1부 : 표준 로그 기반 분석
미디어 서비스 환경에서 최종사용자와 직접 통신하는 콘텐츠 전송 네트워크(CDN)의 성능 및 가용성을 모니터링하는 것은 매우 중요합니다. 모든 미디어 데이터는 CDN 인프라를 통해 최종사용자에게 전달되므로 콘텐츠 공급자는 CDN 캐시서버와 최종사용자 사이의 네트워크 통신에 대한 가시성을 확보할 필요가 있습니다. 만약 해당 구간의 실시간 트렌드 모니터링에 대한 가시성을 확보할 수 있다면, 지역별 트래픽 패턴이나 에러율 패턴 혹은 성능 […]
Amazon EMR에서 Trino와 S3 Select Pushdown을 사용해 쿼리 성능 개선
이 글은 AWS Storage Blog에 게시된 Run queries up to 9x faster using Trino with Amazon S3 Select on Amazon EMR by Boni Bruno and Eric Henderson 글을 기반으로, 아래의 내용을 추가로 다룹니다. CloudFormation을 활용해, 실습을 위한 Amazon EMR 클러스터와 S3 버킷의 테스트 데이터 구성 Trino의 쿼리 환경에서 S3 Select Pushdown 기능을 On & Off […]