AWS 기술 블로그
Category: Analytics
AWS Glue Job 리소스 사용량에 대한 알람 및 리포팅 자동화
이 글은 AWS Big Data Blog에 게시된 ‘Automate alerting and reporting for AWS Glue job resource usage by Michael Hamilton and Angus Ferguson’을 한국어로 번역 및 편집하였습니다. 데이터 변환은 규모에 관계없이 모든 조직의 비즈니스에 필요한 데이터 인사이트를 제공하는데 핵심적인 역할을 합니다. 이러한 인사이트를 얻기 위해 고객들은 종종 소스 시스템에서 ETL(추출, 변환, 로드) 작업을 수행하여 보강된 […]
농심 켈로그의 Amazon Comprehend 감성분석을 활용한 SNS 대시보드 및 알림 구축 사례
농심 켈로그는? 호랑이 기운이 솟아나는 콘푸로스트로 잘 알려진 농심 켈로그는 세계 최대의 시리얼 기업인 켈로그와 식품회사인 농심의 합작으로 1981년 설립되었습니다. 국내에 안성공장을 보유하고 있으며 콘푸로스트, 첵스초코, 리얼 그래놀라, 아몬드 푸레이크 등 대표 제품이 있고 프링글스, 켈로그 바, 프로틴 그래놀라 등으로 제품 포트폴리오를 확장하고 있습니다. 농심 켈로그는 ‘Be the 1st choice of breakfast, snacks and people’ 이라는 비전을 기반으로 소비자의 니즈 충족과 건강한 라이프 스타일 확대를 위해 적극적으로 노력하고 있습니다. 배경 B2C 기업은 다양한 채널에서 발생하는 제품 리뷰와 포스팅을 모니터링하고 비즈니스에 활용하고자 하나, 이런 환경을 구축하는 것은 쉽지 않습니다. 제한된 인력으로 다양한 채널에서 발생하는 리뷰 및 포스팅을 모두 확인하고 분석하는 데는 상당한 시간이 소요되며, 모니터링 채널이 증가할 경우 업무 부하가 […]
효율적인 AWS CloudTrail 검색을 위한 데이터 파이프라인 구성
AWS CloudTrail은 사용자, 역할 또는 AWS 서비스가 수행하는 작업을 이벤트로 기록하는 서비스입니다. 이벤트에는 AWS Management Console, AWS Command Line Interface 및 AWS SDK, API에서 수행되는 작업이 포함됩니다. 이벤트는 Amazon Simple Storage Service(S3)에 JSON 형식의 압축 파일로 기록됩니다. 이 파일을 직접 다운받아 조회하거나 전체 포맷을 변경하지 않고 검색하는것은 매우 어려운 일 입니다. 서버리스 데이터 통합 서비스인 […]
삼성전자 사례로 보는 엔터프라이즈 클라우드 여정
이번 AWS Korea 테크 블로그에서는 ‘Moving a Galaxy into Cloud’시리즈를 통해서 대한민국의 엔터프라이즈 기업에서 AWS 클라우드를 도입해왔던 역사와 여정을 살펴봄으로써 클라우드 도입을 검토하고 있는 기업들에 도움이 될 수 있도록 몇차례의 블로그 포스팅을 계획하고 있습니다. 클라우드 전환의 비즈니스 가치는 분명합니다. 이는 모든 엔터프라이즈가 다 아는 사실입니다. 기업마다 차이가 있다면 대상과 시기입니다. 일단 클라우드 전환이 시작되면 우선순위에 […]
Apache Spark용 AWS Glue 4.0 자세히 살펴보기
2023년 7월: 이 글은 AWS Glue Studio 노트북 및 대화형 세션에서의 Glue 4.0 지원에 대해 검토 및 업데이트 되었습니다. 이 글은 AWS Big Data Blog에 게시된 ‘ Dive deep into AWS Glue 4.0 for Apache Spark by Gonzalo Herreros, Rajendra Gujja, Bo Li, Mohit Saxena, Noritaka Sekiyama, and Savio Dsouza’을 한국어 번역 및 편집하였습니다. 데이터로부터 인사이트를 […]
Amazon MSK를 이용하여 Amazon Athena로 실시간 스트리밍 데이터 분석하기
이 글은 AWS Big Data Blog 에 게시된 Analyze real-time streaming data in Amazon MSK with Amazon Athena by Scott Rigney and Kiran Matty 을 한국어 번역 및 편집하였습니다. 최근 사용 편의성과 확장성의 발전으로 스트리밍 데이터를 더 쉽게 생성하고 실시간 의사 결정을 위해 사용할 수 있게 되었습니다. 기업이 업계 변화에 더욱 신속하게 대응해야 하는 시장 […]
Amazon CloudFront를 활용한 미디어 서비스 모니터링 방안, 1부 : 표준 로그 기반 분석
미디어 서비스 환경에서 최종사용자와 직접 통신하는 콘텐츠 전송 네트워크(CDN)의 성능 및 가용성을 모니터링하는 것은 매우 중요합니다. 모든 미디어 데이터는 CDN 인프라를 통해 최종사용자에게 전달되므로 콘텐츠 공급자는 CDN 캐시서버와 최종사용자 사이의 네트워크 통신에 대한 가시성을 확보할 필요가 있습니다. 만약 해당 구간의 실시간 트렌드 모니터링에 대한 가시성을 확보할 수 있다면, 지역별 트래픽 패턴이나 에러율 패턴 혹은 성능 […]
Amazon EMR에서 Trino와 S3 Select Pushdown을 사용해 쿼리 성능 개선
이 글은 AWS Storage Blog에 게시된 Run queries up to 9x faster using Trino with Amazon S3 Select on Amazon EMR by Boni Bruno and Eric Henderson 글을 기반으로, 아래의 내용을 추가로 다룹니다. CloudFormation을 활용해, 실습을 위한 Amazon EMR 클러스터와 S3 버킷의 테스트 데이터 구성 Trino의 쿼리 환경에서 S3 Select Pushdown 기능을 On & Off […]
농심의 Amazon SageMaker를 활용한 원자재 가격예측과 MLOps 여정
농심은 1965년 창립 이후 50여 년 동안 한국의 식문화를 이끌어온 식품 전문 제조기업입니다. 농심은 글로벌 식문화 창조기업으로의 도약을 위해 비전 2025를 수립하고 이에 맞는 중장기 목표와 사업별 성장전략, 역량 확보전략을 새롭게 정립하고 있습니다. 농심은 식품 제조에 필요한 원자재를 ‘비축구매 방식’으로 구매하고 있습니다. 비축구매는 미래 원자재 가격의 오름/내림을 예측하여 n개월 뒤에 받을 원자재를 현재 시점에서 선 […]
Apache Atlas on Amazon EMR을 사용하여 Data Lineage 구성하기
데이터 거버넌스는 효율적인 데이터 관리를 위해 필수적인 요소입니다. 대부분의 데이터 지향 조직에서 데이터레이크의 메타데이터(Metadata) 관리, 카탈로깅(Cataloging), 데이터 리니지(Data Lineage), 데이터 분류(Classification) 등을 통해 효과적으로 그들의 데이터를 검색하고 활용하기를 원하고 있습니다. 이번 게시글에서는 Apache Atlas를 Amazon EMR 위에 설치하여, AWS Glue에서 관리되고 있는 카탈로그와 메타데이터를 포함하여 Apache Atlas에서 통합적으로 관리하고, 데이터 리니지 생성을 통해 데이터 흐름을 […]