AWS 기술 블로그

Category: Analytics

Apache Spark용 AWS Glue 4.0 자세히 살펴보기

2023년 7월: 이 글은 AWS Glue Studio 노트북 및 대화형 세션에서의 Glue 4.0 지원에 대해 검토 및 업데이트 되었습니다. 이 글은 AWS Big Data Blog에 게시된 ‘ Dive deep into AWS Glue 4.0 for Apache Spark by Gonzalo Herreros, Rajendra Gujja, Bo Li, Mohit Saxena, Noritaka Sekiyama, and Savio Dsouza’을 한국어 번역 및 편집하였습니다. 데이터로부터 인사이트를 […]

Amazon MSK를 이용하여 Amazon Athena로 실시간 스트리밍 데이터 분석하기

이 글은 AWS Big Data Blog 에 게시된 Analyze real-time streaming data in Amazon MSK with Amazon Athena by Scott Rigney and Kiran Matty 을 한국어 번역 및 편집하였습니다. 최근 사용 편의성과 확장성의 발전으로 스트리밍 데이터를 더 쉽게 생성하고 실시간 의사 결정을 위해 사용할 수 있게 되었습니다. 기업이 업계 변화에 더욱 신속하게 대응해야 하는 시장 […]

Amazon CloudFront를 활용한 미디어 서비스 모니터링 방안, 1부 : 표준 로그 기반 분석

미디어 서비스 환경에서 최종사용자와 직접 통신하는 콘텐츠 전송 네트워크(CDN)의 성능 및 가용성을 모니터링하는 것은 매우 중요합니다. 모든 미디어 데이터는 CDN 인프라를 통해 최종사용자에게 전달되므로 콘텐츠 공급자는 CDN 캐시서버와 최종사용자 사이의 네트워크 통신에 대한 가시성을 확보할 필요가 있습니다. 만약 해당 구간의 실시간 트렌드 모니터링에 대한 가시성을 확보할 수 있다면, 지역별 트래픽 패턴이나 에러율 패턴 혹은 성능 […]

Amazon EMR에서 Trino와 S3 Select Pushdown을 사용해 쿼리 성능 개선

이 글은 AWS Storage Blog에 게시된 Run queries up to 9x faster using Trino with Amazon S3 Select on Amazon EMR by Boni Bruno and Eric Henderson 글을 기반으로, 아래의 내용을 추가로 다룹니다. CloudFormation을 활용해, 실습을 위한 Amazon EMR 클러스터와 S3 버킷의 테스트 데이터 구성 Trino의 쿼리 환경에서 S3 Select Pushdown 기능을 On & Off […]

농심의 Amazon SageMaker를 활용한 원자재 가격예측과 MLOps 여정

농심은 1965년 창립 이후 50여 년 동안 한국의 식문화를 이끌어온 식품 전문 제조기업입니다. 농심은 글로벌 식문화 창조기업으로의 도약을 위해 비전 2025를 수립하고 이에 맞는 중장기 목표와 사업별 성장전략, 역량 확보전략을 새롭게 정립하고 있습니다. 농심은 식품 제조에 필요한 원자재를 ‘비축구매 방식’으로 구매하고 있습니다. 비축구매는 미래 원자재 가격의 오름/내림을 예측하여 n개월 뒤에 받을 원자재를 현재 시점에서 선 […]

Apache Atlas on Amazon EMR을 사용하여 Data Lineage 구성하기

데이터 거버넌스는 효율적인 데이터 관리를 위해 필수적인 요소입니다. 대부분의 데이터 지향 조직에서 데이터레이크의 메타데이터(Metadata) 관리, 카탈로깅(Cataloging), 데이터 리니지(Data Lineage), 데이터 분류(Classification) 등을 통해 효과적으로 그들의 데이터를 검색하고 활용하기를 원하고 있습니다. 이번 게시글에서는 Apache Atlas를 Amazon EMR 위에 설치하여, AWS Glue에서 관리되고 있는 카탈로그와 메타데이터를 포함하여 Apache Atlas에서 통합적으로 관리하고, 데이터 리니지 생성을 통해 데이터 흐름을 […]

AWS Glue DataBrew와 Amazon QuickSight를 이용한 반정형 중첩 JSON 데이터 분석

이 글은 AWS Big Data Blog에 게시된 Simplify semi-structured nested JSON data analysis with AWS Glue DataBrew and Amazon QuickSight by Sriharsh Adari, Amogh Gaikwad, and Rahul Sonawane을 한국어 번역 및 편집을 하였습니다. 산업이 성장하고 데이터양이 늘어나면서 빅데이터 분석이 데이터 분석이나 기계 학습(ML)에서 공통으로 사용되고 있습니다. 데이터는 정형, 반정형 및 비정형 형식의 다양한 소스에서 발생합니다. […]

Amazon Lookout for Vision과 Rekognition을 이용한 부품 결함 감지 시스템 구축하기

결함 감지 자동화 시스템 개발 배경 현재 제조 업계 인공지능 기술은 23억 달러의 시장 가치를 가지고 있으며, 이 가치는 2027년에는 163억 달러까지 성장할 것으로 예상됩니다. 오늘날 인공지능 기술 중 제조업에서 많이 사용하는 머신 비전은 대부분 PC 기반이지만, 머신 비전을 온프레미스 서버 또는 기계와 소프트웨어 통합형으로 사용하는 데에는 아직 많은 불편함이 있습니다. 고객은 머신 비전을 채택하는 […]

Amazon Redshift 스트리밍 수집을 이용한 실시간 분석

2022년 11월 : 이 블로그는 Amazon Redshift 스트리밍 수집이 정식 출시됨에 따라 도입된 변경 사항을 반영하기 위해 업데이트 되었습니다. Amazon Redshift는 빠르고 확장이 쉽고 안전한 완전 관리형 클라우드 데이터 웨어하우스로, 표준 SQL을 사용하여 데이터를 간단하고 비용 효율적으로 분석할 수 있는 서비스입니다. Amazon Redshift는 다른 클라우드 데이터 웨어하우스보다 더 나은 가격 대비 성능을 제공하고 있고 이미 […]

Amazon Redshift의 가격 대비 성능 벤치 마크 결과

데이터는 전략자산입니다. 적시에 데이터로부터 가치를 얻기 위해서는 비용을 낮게 유지하면서도 규모에 맞는 성능을 제공할 수 있도록 고성능 시스템이 필요합니다. Amazon Redshift는 가장 유명한 클라우드 데이터 웨어하우스로 수만 명의 고객이 매일 엑사바이트 규모의 데이터를 분석하는 데 사용합니다. 고객들은 Amazon Redshift 환경으로 더욱더 많은 데이터를 가져오기 때문에, 저희는 가격 대비 성능의 비율을 개선하기 위한 기능을 지속해서 추가하고 […]