AWS 분석 서비스 선택
소개
애플리케이션과 사용자가 데이터를 안전하게 액세스하고 분석해야 합니다. 데이터 볼륨은 새롭고 다양한 소스에서 유입되며 전례 없는 속도로 증가하고 있습니다. 조직은 데이터의 가치를 이끌어내야 하지만 오늘날의 현대 비즈니스에서 생성되는 모든 데이터를 캡처, 저장 및 분석하는 데 어려움을 겪고 있습니다.
이러한 과제를 해결하려면 서드 파티 데이터를 비롯하여 분석 및 인사이트를 위한 모든 데이터 사일로를 없애고 전반적인 거버넌스를 통해 조직 내 모든 사람이 데이터를 사용할 수 있도록 하는 현대적 데이터 아키텍처를 구축해야 합니다. 예측 분석을 가능하게 하기 위해 분석과 기계 학습(ML) 시스템을 연결하는 것도 갈수록 더 중요해지고 있습니다.
이 의사 결정 가이드는 AWS 서비스를 기반으로 현대적 데이터 아키텍처를 구축하는 데 필요한 고려 사항을 파악하는 데 도움이 됩니다. 데이터 레이크와 데이터 웨어하우스를 연결하여 데이터 사일로를 없애고, ML과 분석을 연결하여 시스템 사일로를 없애며, 조직 내 모든 사람에게 데이터를 제공하여 인력 사일로를 없애는 방법을 설명합니다.
이 6분 분량의 동영상은 AWS Analytics VP인 G2 Krishnamoorthy가 re:Invent 2022에서 발표한 1시간 분량의 프레젠테이션에서 발췌한 것으로, AWS 분석 서비스의 개요를 설명합니다. 전체 프레젠테이션에서는 AWS 기반 분석의 현황과 데이터와 관련한 혁신적인 최신 서비스에 대해 다루고 AWS 분석을 활용한 고객 성공 사례를 소개합니다.
읽을 시간
20분
목적
조직에 가장 적합한 AWS 분석 서비스를 결정하는 데 도움이 됩니다.
레벨
초보자
최종 업데이트 날짜
2023년 8월 8일
적용 대상 서비스
이해
데이터를 관리하고, 액세스하고, 분석하고, 조치를 취하는 데 도움이 되는 일련의 기술 구성 요소로 현대적 데이터 전략을 구현할 수 있습니다. 또한 데이터 소스에 연결하기 위한 여러 옵션을 제공합니다. 현대적 데이터 전략은 다음과 같은 팀의 역량을 강화합니다.
- 선호하는 도구 또는 기법을 사용하여 분석 또는 ML을 실행
- 적절한 보안 및 데이터 거버넌스 제어를 통해 데이터에 액세스할 수 있는 사용자를 관리
- 데이터 사일로를 없애 데이터 레이크와 목적별 데이터 스토어의 이점을 모두 활용
- 저렴한 비용으로 원하는 양의 데이터를 개방형 표준 기반 데이터 형식으로 저장 AWS의 현대적 데이터 아키텍처는 레이크, 웨어하우스 및 기타 목적별 서비스를 일관된 통합 서비스로 연결합니다.
AWS에서 현대적 데이터 전략을 구현하는 것은 다음 다섯 가지 요소를 기반으로 합니다.
규모 조정이 가능한 데이터 레이크
의사 결정을 신속하게 내리려면 원하는 양의 데이터를 오픈 포맷으로 저장하고 단절된 데이터 사일로를 없애야 합니다. 또한 조직의 구성원들이 선호하는 도구나 기술을 사용하여 분석 또는 ML을 실행할 수 있도록 지원하고, 적절한 보안 및 데이터 거버넌스 제어를 통해 특정 데이터에 액세스할 수 있는 사람을 관리해야 할 수도 있습니다.
현대적 데이터 아키텍처는 데이터 레이크로부터 시작됩니다. 데이터 레이크를 사용하면 모든 데이터(관계형, 비관계형, 정형, 비정형)를 비용 효율적으로 저장할 수 있습니다. AWS를 사용하면 다양한 사일로에서 Amazon S3 데이터 레이크로 원하는 양의 데이터를 이동할 수 있습니다. 그런 다음 Amazon S3는 표준 기반 오픈 형식을 사용하여 데이터를 저장합니다.
성능 및 비용을 고려한 목적별 제공
온프레미스 데이터 파이프라인이 현재 사용 중인 도구에 맞게 개조되어 최적화되지 않은 경험을 제공하는 경우가 많습니다. AWS는 기능, 성능, 규모 또는 비용 측면에서 절충할 필요 없이, 적절한 작업에 적합한 도구를 선택할 수 있도록 다양하고 심층적인 목적별 데이터 서비스 세트를 제공합니다.
사용이 쉬운 서버리스
다양한 유형의 분석 요구 사항에 대해 AWS는 인프라를 건드리지 않고도 애플리케이션에 집중할 수 있도록 설계된 서버리스 옵션을 제공합니다.
원시 데이터를 비즈니스 인사이트를 도출하는 데 사용할 수 있는 상태로 만들기 위해 데이터 파이프라인의 추출, 전환, 적재(ETL) 단계에서 수행하는 프로세스는 까다로울 수 있습니다. AWS는 제로 ETL 접근 방식(기존 ETL 프로세스가 필요 없음)으로 전환하고 있습니다. 이 접근 방식을 사용하면 ETL을 사용할 필요 없이 데이터가 있는 위치에서 바로 데이터를 분석할 수 있습니다. 이 접근 방식을 지원하는 AWS 서비스 내 기능은 다음과 같습니다.
- Redshift로의 Amazon 제로 ETL Aurora
- Kinesis 및 MSK에서 Redshift로 직접 Amazon Redshift 스트리밍 수집
- Amazon Redshift 및 Amazon Athena의 페더레이션 쿼리
통합 데이터 액세스, 보안 및 거버넌스
중앙 집중식 데이터 레이크와 목적별 분석 서비스 컬렉션이 준비되고 나면, 데이터가 어디에 있든 데이터에 액세스하고 보안을 유지하고 관련 규정 및 보안 모범 사례를 준수하는 거버넌스 정책을 수립하는 기능이 필요합니다.
거버넌스는 AWS Lake Formation에서 시작됩니다. 이 서비스를 사용하면 데이터베이스, 데이터 웨어하우스, 목적별 데이터 스토어, 데이터 레이크 등 데이터가 어디에 있든 데이터에 액세스할 수 있고, 어디에 저장하든 데이터를 안전하게 유지할 수 있습니다.
데이터 거버넌스의 경우 AWS는 데이터를 자동으로 검색, 태깅, 분류하고 동기화 상태로 유지하며, 사용자는 보안, 거버넌스 및 감사 정책을 중앙에서 정의하고 관리하여 해당 산업 및 지역별 규제를 준수할 수 있습니다.
내장된 기계 학습
AWS는 목적별 분석 서비스의 일부로 기계 학습 통합을 기본적으로 제공합니다. ML에 대한 사전 경험이 없어도 익숙한 SQL 명령을 사용하여 ML 모델을 구축, 훈련, 배포할 수 있습니다.
사용 사례별로 서로 다른 유형의 데이터 스토어(관계형, 비관계형, 데이터 웨어하우스, 분석 서비스)를 사용하는 것은 드문 일이 아닙니다. AWS는 데이터를 내보내고 처리할 필요 없이 데이터에 대해 모델을 훈련하거나 데이터 스토어에서 바로 추론 결과를 추가할 수 있는 옵션을 제공하는 다양한 통합 기능을 제공합니다.
고려 사항
AWS에 분석 파이프라인을 구축하는 데에는 여러 가지 이유가 있습니다. 클라우드 마이그레이션 여정의 첫 단계로 그린필드 또는 파일럿 프로젝트를 지원해야 할 수 있습니다. 또는 기존 워크로드를 최대한 중단하지 않고 마이그레이션해야 할 수도 있습니다. 목표가 무엇이든, 다음 고려 사항이 선택하는 데 유용할 수 있습니다.
-
데이터 소스 및 데이터 유형 평가
-
데이터 처리 요구 사항
-
스토리지 요구 사항
-
데이터 유형
-
운영 고려 사항
-
워크로드 유형
-
필요한 분석 유형
-
확장성 및 성능 평가
-
데이터 거버넌스
-
보안
-
통합 및 데이터 흐름 계획
-
최적화된 비용으로 아키텍팅
-
사용 가능한 데이터 소스 및 데이터 유형을 분석하여 데이터 다양성, 빈도 및 품질을 포괄적으로 파악합니다. 데이터 처리 및 분석의 잠재적 문제 이해 이 분석은 다음과 같은 이유로 매우 중요합니다.
- 데이터 소스는 다양하며 다양한 시스템, 애플리케이션, 디바이스 및 외부 플랫폼에서 제공됩니다.
- 데이터 소스마다 구조, 형식 및 데이터 업데이트 빈도가 다릅니다. 이러한 소스를 분석하면 적절한 데이터 수집 방법 및 기술을 식별하는 데 도움이 됩니다.
- 정형, 반정형, 비정형 데이터와 같은 데이터 유형을 분석하면 적절한 데이터 처리 및 저장 방식을 결정할 수 있습니다.
- 데이터 소스 및 유형을 분석하면 데이터 품질을 평가하기가 쉬워지고 누락된 값, 불일치 또는 부정확성과 같은 잠재적인 데이터 품질 문제를 예측하는 데 도움이 됩니다.
-
데이터 수집, 변환, 정리 및 분석 준비 방법과 관련한 데이터 처리 요구 사항을 결정합니다. 주요 고려 사항은 다음과 같습니다.
- 데이터 변환: 원시 데이터를 분석에 적합한 형식으로 만드는 데 필요한 특정 변환 방식을 결정합니다. 여기에는 데이터 집계, 정규화, 필터링 및 보강과 같은 작업이 포함됩니다.
- 데이터 정리: 데이터 품질을 평가하고 누락되거나 부정확하거나 일관되지 않은 데이터를 처리하기 위한 프로세스를 정의합니다. 데이터 정리 기술을 구현하여 신뢰할 수 있는 인사이트를 위한 고품질 데이터를 확보합니다.
- 처리 빈도: 분석 요구 사항에 따라 실시간 처리, 실시간에 가까운 처리 또는 배치 처리가 필요한지 여부를 결정합니다. 실시간 처리를 통해 즉각적인 인사이트를 얻을 수 있는 반면, 주기적인 분석에는 일괄 처리만으로도 충분할 수 있습니다.
- 확장성 및 처리량: 데이터 볼륨, 처리 속도, 동시 데이터 요청 수에 따른 확장성 요구 사항을 평가합니다. 선택한 처리 방식이 향후 데이터 증가를 수용할 수 있는지 확인합니다.
- 지연 시간: 데이터 처리에 허용되는 지연 시간과 데이터 모으기에서 분석 결과까지 걸리는 시간을 고려합니다. 이는 실시간 분석 또는 시간에 민감한 분석에 특히 중요합니다.
-
분석 파이프라인 전반에서 데이터가 저장되는 방식과 위치를 결정하여 스토리지 요구 사항을 판단합니다. 중요한 고려 사항은 다음과 같습니다.
- 데이터 볼륨: 생성 및 수집되는 데이터의 양을 평가하고 향후 데이터 증가량을 예측하여 충분한 스토리지 용량을 계획합니다.
- 데이터 보존: 기록 분석 또는 규정 준수를 위해 데이터를 보존해야 하는 기간을 정의합니다. 적절한 데이터 보존 정책을 결정합니다.
- 데이터 액세스 패턴: 데이터 액세스 및 쿼리 방식을 파악하여 가장 적합한 스토리지 솔루션을 선택합니다. 읽기 및 쓰기 작업, 데이터 액세스 빈도, 데이터 로컬리티를 고려합니다.
- 데이터 보안: 민감한 정보를 보호하기 위한 암호화 옵션, 액세스 제어 및 데이터 보호 메커니즘을 평가하여 데이터 보안의 우선순위를 정합니다.
- 비용 최적화: 데이터 액세스 패턴 및 사용량을 기준으로 가장 비용 효율적인 스토리지 솔루션을 선택하여 스토리지 비용을 최적화합니다.
- 분석 서비스와의 통합: 선택한 스토리지 솔루션과 파이프라인의 데이터 처리 및 분석 도구 간의 원활한 통합을 보장합니다.
-
데이터 수집 및 데이터 모으기를 위한 분석 서비스를 결정할 때는 조직의 요구 사항 및 목표와 관련된 다양한 유형의 데이터를 고려합니다. 고려해야 하는 일반적인 데이터 유형은 다음과 같습니다.
- 거래 데이터: 고객 구매, 금융 거래, 온라인 주문, 사용자 활동 로그 등 개별 상호 작용 또는 거래에 대한 정보를 포함합니다.
- 파일 기반 데이터: 로그 파일, 스프레드시트, 문서, 이미지, 오디오 파일, 비디오 파일 등, 파일에 저장된 정형 또는 비정형 데이터를 말합니다. 분석 서비스는 다양한 파일 형식의 수집을 지원해야 합니다.
- 이벤트 데이터: 사용자 작업, 시스템 이벤트, 기계 이벤트 또는 비즈니스 이벤트와 같은 중요한 사건이나 사고를 캡처합니다. 이벤트에는 빠른 속도로 도달하여 온스트림 또는 다운스트림 처리를 위해 캡처되는 모든 데이터가 포함될 수 있습니다.
-
운영 책임은 고객과 AWS가 공동으로 맡게 되며, 현대화 수준에 따라 책임 분담이 달라집니다. AWS에서 분석 인프라를 자체적으로 관리하거나, 수많은 서버리스 분석 서비스를 활용하여 인프라 관리 부담을 덜 수 있습니다.
자체 관리 옵션을 사용하면 사용자가 인프라 및 구성을 보다 효과적으로 제어할 수 있지만 운영 작업량이 늘어납니다.
서버리스 옵션은 자동 확장성, 고가용성 및 강력한 보안 기능을 제공하여 운영 부담을 상당 부분 덜어 주므로 사용자가 인프라 및 운영 작업을 관리하는 것이 아니라 분석 솔루션을 구축하고 인사이트를 도출하는 데 더 집중할 수 있습니다. 서버리스 분석 솔루션의 다음과 같은 이점을 고려합니다.
- 인프라 추상화: 서버리스 서비스는 인프라 관리를 추상화하여 사용자가 프로비저닝, 확장 및 유지 관리 작업에서 벗어나도록 합니다. AWS가 이러한 운영 측면을 처리하여 관리 오버헤드를 줄여 줍니다.
- 오토 스케일링 및 성능: 서버리스 서비스는 워크로드 수요에 따라 리소스의 규모를 자동으로 조정하여 수동 개입 없이 최적의 성능을 보장합니다.
- 고가용성 및 재해 복구: AWS가 서버리스 서비스에 고가용성을 제공합니다. AWS가 데이터 이중화, 복제 및 재해 복구를 관리하여 데이터 가용성과 신뢰성을 높입니다.
- 보안 및 규정 준수: AWS가 산업 표준 및 모범 사례를 준수하면서 서버리스 서비스의 보안 조치, 데이터 암호화 및 규정 준수를 관리합니다.
- 모니터링 및 로깅: AWS가 서버리스 서비스를 위한 내장 모니터링, 로깅 및 알림 기능을 제공합니다. 사용자는 AWS CloudWatch를 통해 자세한 지표와 로그에 액세스할 수 있습니다.
-
현대적 분석 파이프라인을 구축할 때 다양한 분석 요구 사항을 효과적으로 충족하려면 지원할 워크로드 유형을 결정하는 것이 중요합니다. 각 워크로드 유형에 대해 고려해야 할 주요 의사 결정 사항은 다음과 같습니다.
배치 워크로드
- 데이터 볼륨 및 빈도: 배치 처리는 정기적으로 업데이트되는 대용량 데이터에 적합합니다.
- 데이터 지연: 배치 처리는 실시간 처리에 비해 인사이트를 제공하는 데 약간의 지연이 발생할 수 있습니다.
대화식 분석
- 데이터 쿼리 복잡성: 대화식 분석을 위해서는 지연 시간이 짧은 응답을 통해 빠른 피드백을 제공해야 합니다.
- 데이터 시각화: 비즈니스 사용자가 데이터를 시각적으로 탐색할 수 있도록 하는 대화식 데이터 시각화 도구의 필요성을 평가합니다.
스트리밍 워크로드
- 데이터 속도 및 볼륨: 스트리밍 워크로드에는 고속 데이터를 처리하기 위한 실시간 처리 성능이 요구됩니다.
- 데이터 윈도잉: 스트리밍 데이터에 대한 데이터 윈도잉 및 시간 기반 집계를 정의하여 관련 인사이트를 추출합니다.
-
분석을 통해 도출하려는 비즈니스 목표와 인사이트를 명확하게 정의합니다. 분석 유형마다 용도가 다릅니다. 예:
- 기술 분석은 기록 데이터의 개요를 파악하는 데 적합합니다.
- 진단 분석은 과거 이벤트의 원인을 파악하는 데 도움이 됩니다.
- 예측 분석에서는 미래 결과를 예측합니다.
- 처방 분석은 최적의 조치를 위한 권장 사항을 제공합니다.
비즈니스 목표에 해당하는 관련 분석 유형을 선택하세요. 올바른 분석 유형을 선택하는 데 도움이 되는 몇 가지 주요 결정 기준은 다음과 같습니다.
- 데이터 가용성 및 품질: 설명 및 진단 분석은 기록 데이터를 기반으로 하는 반면, 예측 및 처방 분석에는 정확한 모델을 구축하기에 충분한 기록 데이터와 고품질 데이터가 필요합니다.
- 데이터 볼륨 및 복잡성: 예측 분석과 처방 분석에는 상당한 데이터 처리 및 계산 리소스가 필요합니다. 인프라와 도구가 데이터 볼륨 및 복잡성을 처리하기에 충분한지 확인하세요.
- 의사 결정의 복잡성: 의사 결정에 여러 변수, 제약 조건 및 목표가 연관되어 있는 경우 최적의 처리 방법을 파악하는 데 처방 분석이 적합할 수 있습니다.
- 위험 허용 범위: 처방 분석은 권장 사항을 제공할 수 있지만 관련된 불확실성이 수반될 수 있습니다. 의사 결정권자가 분석 결과와 관련된 위험성을 이해하도록 하세요.
-
아키텍처의 확장성 및 성능 요구 사항을 평가합니다. 증가하는 데이터 볼륨, 사용자 수요 및 분석 워크로드를 처리할 수 있도록 설계해야 합니다. 고려해야 할 주요 결정 요인은 다음과 같습니다.
- 데이터 볼륨 및 성장: 현재 데이터 볼륨을 평가하고 향후 성장을 예측합니다.
- 데이터 속도 및 실시간 요구 사항: 데이터를 실시간 또는 거의 실시간으로 처리하고 분석해야 하는지 판단합니다.
- 데이터 처리 복잡성: 데이터 처리 및 분석 작업의 복잡성을 분석합니다. 컴퓨팅 집약적인 작업의 경우, Amazon EMR과 같은 서비스를 활용하면 빅 데이터 처리를 위한 확장 가능하고 관리되는 환경을 이용할 수 있습니다.
- 동시성 및 사용자 부하: 동시 사용자 수와 시스템의 사용자 부하 수준을 고려합니다.
- 오토 스케일링 기능: 수요에 따라 리소스를 자동으로 스케일 업 또는 스케일 다운할 수 있는 오토 스케일링 기능을 제공하는 서비스를 고려해 봅니다. 이를 통해 효율적인 리소스 활용과 비용 최적화를 보장할 수 있습니다.
- 지리적 분포: 데이터 아키텍처를 여러 지역 또는 위치에 분산해야 하는 경우 글로벌 복제 기능과 지연 시간이 짧은 데이터 액세스 기능을 갖춘 서비스를 고려해 봅니다.
- 비용 대비 성능: 성능 요구 사항과 비용 고려 사항의 균형을 맞춥니다. 고성능 서비스는 비용이 더 많이 들 수 있습니다.
- 서비스 수준에 관한 계약(SLA): AWS 서비스에서 제공하는 SLA가 확장성과 성능 기대치를 충족하는지 확인합니다.
-
데이터 거버넌스는 데이터 자산의 효과적인 관리, 품질, 보안 및 규정 준수를 보장하기 위해 구현해야 하는 일련의 프로세스, 정책 및 제어 기능입니다. 고려해야 할 주요 결정 사항은 다음과 같습니다.
- 데이터 보존 정책: 규제 요건 및 비즈니스 요구 사항에 따라 데이터 보존 정책을 정의하고 더 이상 필요하지 않을 경우 데이터를 안전하게 폐기하기 위한 프로세스를 수립합니다.
- 감사 추적 및 로깅: 데이터 액세스 및 사용을 모니터링하기 위한 로깅 및 감사 메커니즘을 결정합니다. 포괄적인 감사 추적을 구현하여 규정 준수 및 보안 모니터링을 위해 데이터 변경, 액세스 시도, 사용자 활동을 추적합니다.
- 규정 준수 요구 사항: 조직에 적용되는 산업별/지역별 데이터 규정을 파악합니다. 데이터 아키텍처가 이러한 규정과 지침에 부합하도록 해야 합니다.
- 데이터 분류: 민감도를 기준으로 데이터를 분류하고 각 데이터 클래스에 적합한 보안 제어 방식을 정의합니다.
- 재해 복구 및 비즈니스 연속성: 재해 복구 및 비즈니스 연속성을 계획하여 예기치 않은 이벤트 또는 시스템 장애 발생 시 데이터 가용성과 복원력을 보장합니다.
- 서드 파티 데이터 공유: 서드 파티 주체와 데이터를 공유하는 경우 안전한 데이터 공유 프로토콜 및 계약을 수립하여 데이터 기밀을 보호하고 데이터 오용을 방지합니다.
- 데이터 보존 정책: 규제 요건 및 비즈니스 요구 사항에 따라 데이터 보존 정책을 정의하고 더 이상 필요하지 않을 경우 데이터를 안전하게 폐기하기 위한 프로세스를 수립합니다.
-
분석 파이프라인의 데이터 보안을 유지하려면 파이프라인의 모든 단계에서 데이터를 보호하여 기밀성, 무결성 및 가용성을 보장해야 합니다. 고려해야 할 주요 결정 사항은 다음과 같습니다.
- 액세스 제어 및 권한 부여: 강력한 인증 및 권한 부여 프로토콜을 구현하여 승인된 사용자만 특정 데이터 리소스에 액세스할 수 있게 합니다.
- 데이터 암호화: 데이터베이스, 데이터 레이크에 저장된 데이터 및 아키텍처의 여러 구성 요소 간 데이터 이동 중에 적합한 암호화 방법을 선택합니다.
- 데이터 마스킹 및 익명화: PII 또는 민감한 비즈니스 데이터와 같은 민감한 데이터를 보호하는 동시에 특정 분석 프로세스를 계속 실행하는 데 있어서 데이터 마스킹 또는 익명화의 필요성을 고려합니다.
- 안전한 데이터 통합: 안전한 데이터 통합 방식을 확립하여 아키텍처의 여러 구성 요소 간에 데이터가 안전하게 흐르도록 하고 데이터 이동 중에 데이터 유출이나 무단 액세스를 방지합니다.
- 네트워크 격리: 리소스가 공용 인터넷에 노출되지 않도록 AWS VPC 엔드포인트를 지원하는 서비스를 고려합니다.
-
분석 파이프라인의 다양한 구성 요소 간 통합 지점과 데이터 흐름을 정의하여 원활한 데이터 흐름과 상호 운용성을 보장합니다. 고려해야 할 주요 결정 사항은 다음과 같습니다.
- 데이터 소스 통합: 데이터베이스, 애플리케이션, 파일, 외부 API 등, 데이터를 수집할 데이터 소스를 식별합니다. 데이터를 파이프라인으로 효율적으로 가져올 수 있는 데이터 모으기 방법(배치, 실시간, 이벤트 기반)을 결정하여 지연 시간을 최소화합니다.
- 데이터 변환: 분석을 위해 데이터를 준비하는 데 필요한 변환 방식을 결정합니다. 파이프라인을 통해 이동하는 데이터를 정리, 집계, 정규화 또는 보강하기 위한 도구와 프로세스를 결정합니다.
- 데이터 이동 아키텍처: 파이프라인 구성 요소 간의 데이터 이동에 적합한 아키텍처를 선택합니다. 실시간 요구 사항과 데이터 볼륨에 따라 배치 처리, 스트림 처리 또는 이 둘의 조합을 고려해 봅니다.
- 데이터 복제 및 동기화: 모든 구성 요소에서 데이터를 최신 상태로 유지하기 위한 데이터 복제 및 동기화 메커니즘을 결정합니다. 데이터 최신성 요구 사항에 따라 실시간 복제 솔루션 또는 주기적 데이터 동기화를 고려합니다.
- 데이터 품질 및 검증: 데이터 품질 검사 및 검증 단계를 구현하여 파이프라인을 통해 이동하는 데이터의 무결성을 보장합니다. 알림, 오류 처리 등, 데이터 검증이 실패할 경우 취해야 할 조치를 결정합니다.
- 데이터 보안 및 암호화: 전송 중인 데이터와 저장 데이터를 보호하는 방법을 결정합니다. 데이터 민감도에 따라, 필요한 보안 수준을 고려하여 파이프라인 전체에서 민감한 데이터를 보호할 암호화 방법을 결정합니다.
- 확장성 및 복원력: 데이터 흐름 설계에서 수평적 확장이 허용되고, 증가한 데이터 볼륨 및 트래픽을 처리할 수 있는지 확인합니다.
-
AWS를 기반으로 분석 파이프라인을 구축하면 다양한 측면에서 비용을 최적화할 수 있습니다. 비용 효율성을 보장하려면 다음 전략을 고려하세요.
- 리소스 규모 조정 및 선택: 실제 워크로드 요구 사항에 따라 리소스 크기를 적절하게 조정합니다. 오버프로비저닝을 피하면서 워크로드 성능 요구 사항에 맞는 AWS 서비스 및 인스턴스 유형을 선택합니다.
- 오토 스케일링: 다양한 워크로드를 처리하는 서비스에 대해 오토 스케일링을 구현합니다. 오토 스케일링은 수요에 따라 인스턴스 수를 동적으로 조정하여 트래픽이 적은 기간에 비용을 절감해 주는 기능입니다.
- 스팟 인스턴스: 중요도가 낮고 내결함성이 있는 워크로드에 AWS EC2 스팟 인스턴스를 활용합니다. 스팟 인스턴스를 사용하면 온디맨드 인스턴스를 사용할 때에 비해 비용을 크게 절감할 수 있습니다.
- 예약형 인스턴스: 사용량을 예측할 수 있고 안정적인 워크로드에 대해 온디맨드 인스턴스를 사용할 때보다 요금을 크게 절감하려면 AWS 예약형 인스턴스를 구매하는 것이 좋습니다.
- 데이터 스토리지 계층화: 데이터 액세스 빈도에 따라 다양한 스토리지 클래스를 사용하여 데이터 스토리지 비용을 최적화합니다.
- 데이터 수명 주기 정책: 사용 기간 및 사용 패턴에 따라 데이터를 자동으로 이동 또는 삭제하도록 데이터 수명 주기 정책을 설정합니다. 이를 통해 스토리지 비용을 관리하고 데이터의 가치에 따라 데이터 스토리지가 조정되도록 할 수 있습니다.
선택
분석 요구 사항을 평가하는 기준을 알았으므로 이제 조직의 요구 사항에 적합한 AWS 분석 서비스를 선택할 준비가 되었습니다. 다음 표에는 고급 분석 수행, 데이터 관리 또는 예측 분석 수행, ML 등 비즈니스 목표를 실현하기 위해 수행해야 할 작업에 맞는 서비스 세트가 분류되어 있습니다.
대화식 분석
실시간 데이터 분석 및 탐색을 수행하는 프로세스로, 사용자가 대화식으로 데이터를 쿼리하고 시각화하여 인사이트를 얻고 데이터에 입각한 의사 결정을 신속하게 내릴 수 있도록 합니다.
Amazon Athena
Amazon Athena는 오픈소스 프레임워크에 구축된 서버리스 대화형 분석 서비스로 오픈 테이블과 파일 형식을 지원합니다. Athena는 페타바이트 규모의 데이터를 상주 위치에서 분석하는 간소화되고 유연한 방식을 제공합니다. Amazon S3 데이터 레이크 및 온프레미스나 SQL 또는 Python을 사용하는 기타 클라우드 시스템을 포함하는 30개의 데이터 소스로부터 데이터를 분석하거나 애플리케이션을 구축합니다. Athena는 오픈 소스 Trino 및 Presto 엔진과 Apache Spark 프레임워크로 구축되었으며 프로비저닝이나 구성 작업이 필요 없습니다.
빅 데이터 처리
빅 데이터는 3차원, 볼륨, 속도, 다양성을 특징으로 합니다. 빅 데이터 처리 솔루션은 빅 데이터의 엄청난 규모와 복잡성으로 인한 문제를 극복하는 것을 목표로 합니다.
Amazon EMR은 Apache Spark, Apache Hive, Presto와 같은 오픈 소스 프레임워크를 사용하여 페타바이트 규모의 데이터 처리, 대화형 분석, 기계 학습을 지원하는 업계 최고의 클라우드 빅 데이터 솔루션입니다.
데이터 웨어하우징
조직 내의 다양한 소스에서 대량의 정형 및 반정형 데이터를 중앙 집중식으로 저장, 구성 및 검색합니다.
Amazon Redshift는 SQL을 사용하여 여러 데이터 웨어하우스, 운영 데이터베이스 및 데이터 레이크에서 정형 데이터 및 반정형 데이터를 분석하고 AWS가 설계한 하드웨어 및 기계 학습을 사용해 어떤 규모에서든 최고의 가격 대비 성능을 지원합니다.
실시간 분석
데이터가 생성, 수신 또는 수집될 때 큰 지연 없이 데이터를 분석하고 처리하는 프로세스입니다.
Amazon Kinesis Data Analytics를 사용하면 Apache Flink를 통해 실시간으로 스트리밍 데이터를 변환하고 분석할 수 있습니다.
운영 분석
실시간 데이터 분석 및 인사이트를 사용하여 조직 내에서 지속적인 운영 프로세스와 활동을 최적화하고 개선합니다.
OpenSearch는 Apache 2.0 라이선스 하에 제공되는 분산형 커뮤니티 기반 100% 오픈 소스 검색 및 분석 제품군으로, 실시간 애플리케이션 모니터링, 로그 분석 및 웹 사이트 검색과 같이 다양한 사용 사례에 사용됩니다. OpenSearch는 데이터 탐색을 쉽게 해주는 통합 시각화 도구인 OpenSearch 대시보드와 함께 대량의 데이터 볼륨에 빠르게 액세스하고 응답하며 뛰어난 확장성을 지닌 시스템을 제공합니다.
대시보드 및 시각화
대시보드와 시각화는 복잡한 데이터 세트를 시각적으로 표현하므로 사용자가 패턴, 추세 및 인사이트를 한눈에 더 쉽게 파악할 수 있습니다. 시각적으로 매력적이고 직관적인 방식으로 정보를 제공하므로 기술 전문가가 아닌 사용자도 데이터를 쉽게 이해할 수 있습니다.
Amazon QuickSight는 대규모의 통합 비즈니스 인텔리전스(BI)로 데이터 중심 조직을 지원합니다. QuickSight를 사용하면 모든 사용자가 최신 대화형 대시보드, 페이지가 매겨진 보고서, 내장된 분석 및 자연어 쿼리를 통해 신뢰할 수 있는 동일한 출처에서 다양한 분석 요구를 충족할 수 있습니다.
시각적 데이터 준비
시각적 도구 및 인터페이스를 사용하여 시각적이고 직관적인 방식으로 데이터를 탐색, 정리, 변환 및 조작합니다.
AWS Glue DataBrew
AWS Glue DataBrew는 데이터 분석가와 데이터 사이언티스트가 손쉽게 데이터를 정리 및 정규화하여 분석 및 기계 학습을 위해 준비할 수 있도록 지원하는 시각적 데이터 준비 도구입니다. 사전 빌드된 250개 이상의 변환 구성 중에서 선택하여 코드 작성 없이도 데이터 준비 작업을 자동화할 수 있습니다.
실시간 데이터 이동
실시간 데이터 이동 시에는 일반적으로 데이터가 사용 가능해진 후 몇 초 또는 몇 밀리초 이내의 매우 짧은 데이터 전송 지연이 발생합니다.
Amazon Managed Streaming for Apache Kafka(Amazon MSK)는 Apache Kafka를 사용하여 스트리밍 데이터를 처리하는 애플리케이션의 빌드 및 실행을 위한 완전관리형 서비스입니다. Amazon MSK는 클러스터 생성, 업데이트 및 삭제와 같은 컨트롤 플레인 작업을 제공합니다.
Amazon Kinesis Data Streams는 모든 규모의 데이터 스트림을 쉽게 캡처, 처리 및 저장할 수 있는 서버리스 스트리밍 데이터 서비스입니다.
Amazon Kinesis Data Firehose는 스트리밍 데이터를 안정적으로 캡처하고 전환하여 데이터 레이크, 데이터 스토어, 분석 서비스에 전달하는 추출, 전환, 적재(ETL) 서비스입니다.
Amazon Kinesis Video Streams를 사용하면 분석, ML, 재생 및 기타 처리를 위해 연결된 디바이스에서 AWS로 비디오를 쉽고 안전하게 스트리밍할 수 있습니다. Kinesis Video Streams는 수백만 대의 디바이스의 스트리밍 비디오 데이터를 수집하는 데 필요한 모든 인프라를 자동으로 프로비저닝하고 탄력적으로 규모를 조정합니다. 스트림의 비디오 데이터를 안정적으로 저장, 암호화 및 인덱싱하며, 사용하기 쉬운 API를 통해 데이터에 액세스할 수 있도록 지원합니다.
데이터 거버넌스
수명 주기 전반에 걸쳐 데이터의 적절한 관리, 가용성, 유용성, 무결성 및 보안을 보장하는 일련의 프로세스, 정책 및 지침입니다.
Amazon DataZone을 사용하여 조직 경계를 넘어 대규모로 데이터를 공유 및 검색합니다. 거버넌스 및 규정 준수 정책을 적용하는 동시에 개인화된 보기에서 모든 데이터를 볼 수 있는 통합 데이터 분석 포털을 통해, 데이터 프로젝트의 협업을 수행합니다.
AWS Lake Formation은 데이터 레이크를 쉽게 구축 및 보호하고 관리할 수 있게 해 주는 완전관리형 서비스입니다. Lake Formation은 데이터 레이크를 생성하는 데 일반적으로 필요한 복잡한 수동 단계를 대부분 간소화하고 자동화합니다. 이러한 단계에는 데이터를 수집, 정리 및 이동하고 카탈로그를 작성하는 것과 해당 데이터를 분석하고 기계 학습에 안전하게 제공하는 단계가 포함됩니다.
데이터 레이크용 객체 스토리지
AWS에 구축된 데이터 레이크는 Amazon S3를 기본 스토리지 플랫폼으로 사용합니다. Amazon S3는 사실상 무제한의 확장성과 높은 내구성을 통해 데이터 레이크를 위한 최적의 기반을 제공합니다.
Amazon Simple Storage Service(S3)는 확장성과 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스입니다. Amazon S3는 관리 기능을 제공하므로 데이터 액세스를 최적화, 정렬 및 구성하여 특정 비즈니스, 조직 및 규정 준수 요구 사항을 충족할 수 있습니다.
AWS Lake Formation은 데이터 레이크를 쉽게 구축 및 보호하고 관리할 수 있게 해 주는 완전관리형 서비스입니다. Lake Formation은 데이터 레이크를 생성하는 데 일반적으로 필요한 복잡한 수동 단계를 대부분 간소화하고 자동화합니다. 이러한 단계에는 데이터를 수집, 정리 및 이동하고 카탈로그를 작성하는 것과 해당 데이터를 분석하고 기계 학습에 안전하게 제공하는 단계가 포함됩니다.
데이터 레이크용 백업 및 아카이브
Amazon S3로 구동되는 데이터 레이크는 조직에 최신 분석 접근 방식에 필요한 가용성, 민첩성 및 유연성을 제공하여 심층적인 인사이트를 얻을 수 있게 합니다. 이러한 S3 버킷에 저장된 민감한 정보 또는 비즈니스 크리티컬 정보를 보호하는 것은 조직의 최우선 과제입니다.
데이터 카탈로그
사용 가능한 데이터, 구조, 특성 및 관계에 대한 자세한 정보를 제공하는 메타데이터 관리 도구입니다.
AWS Glue는 분석, 기계 학습(ML) 및 애플리케이션 개발을 위해 여러 소스에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한 서버리스 데이터 통합 서비스입니다.
서드 파티 데이터
서드 파티 데이터 및 서비스형 소프트웨어(SaaS) 데이터는 현대 데이터 기반 환경에서 비즈니스 운영의 중요성이 갈수록 커지고 있습니다.
예측 분석 및 기계 학습
AWS는 예측 분석 사용 사례와 관련하여 AWS 기반 데이터 레이크에서 실행되는 광범위한 기계 학습 서비스 및 도구를 제공합니다.
프레임워크 및 인터페이스
AWS ML 인프라는 모든 주요 ML 프레임워크를 지원합니다.
AWS Deep Learning AMI(DLAMI)는 클라우드에서 딥 러닝을 가속화할 수 있는 안전한 프레임워크, 종속성 및 도구를 엄선하여 ML 실무자와 연구자에게 제공합니다. Amazon Linux 및 Ubuntu용으로 개발된 Amazon Machine Image(AMI)는 TensorFlow, PyTorch, Apache MXNet, Chainer, Microsoft Cognitive Toolkit(CNTK), Gluon, Horovod 및 Keras가 미리 구성되어 제공되므로 원하는 프레임워크 및 도구를 대규모로 신속하게 배포하고 실행할 수 있습니다.
플랫폼 서비스
기계 학습 모델을 구축, 훈련 및 배포하기 위한 완전관리형 인프라입니다.
완전관리형 인프라, 도구 및 워크플로를 활용하여 사용 사례에 대해 기계 학습(ML) 모델을 구축, 훈련 및 배포하세요.
직접 데이터 통합
익숙한 SQL 명령을 사용하여 ML 모델을 생성, 훈련 및 배포
Athena ML을 사용하면 Amazon SageMaker에서 ML 모델을 구축 및 배포하고 Amazon Athena에서 SQL 함수를 사용하여 SageMaker 모델에서 예측을 생성할 수 있습니다.
이를 통해 분석 팀은 전문적인 도구와 인프라 없이도 비즈니스 사용자와 분석가에게 모델 기반의 인사이트를 제공할 수 있습니다.
QuickSight ML Insights는 AWS의 검증된 ML 및 자연어 기능을 활용하여 데이터에서 심층적인 인사이트를 얻을 수 있도록 도와줍니다. 바로 사용할 수 있는 이 강력한 기능을 사용하면 기술 전문 지식이나 ML 경험이 없어도 누구나 손쉽게 숨겨진 추세와 이상치를 발견하고, 주요 비즈니스 동인을 식별하고, 강력한 가상 분석 및 예측을 수행할 수 있습니다.
Amazon Redshift ML은 데이터 분석가와 데이터베이스 개발자가 Amazon Redshift 데이터 웨어하우스에서 익숙한 SQL 명령을 사용하여 기계 학습 모델을 쉽게 생성, 훈련 및 적용할 수 있게 해줍니다. Redshift ML을 사용하면 새로운 도구나 언어를 배우지 않고도 완전 관리형 기계 학습 서비스인 Amazon SageMaker를 활용할 수 있습니다. 간단히 SQL 문을 사용하여 Redshift 데이터를 통해 Amazon SageMaker ML 모델을 생성하고 훈련시킨 다음 이러한 모델을 사용하여 예측을 수행하면 됩니다.
사용
이제 데이터 파이프라인 구축을 시작하기 위해 수집 및 분석해야 할 비즈니스 목표와 데이터의 양 및 속도를 명확하게 이해하게 되었을 것입니다.
사용 가능한 각 서비스를 사용하는 방법을 알아보고 이에 대해 자세히 알아보기 위해 각 서비스의 작동 방식을 살펴볼 수 있는 경로를 제공했습니다. 다음 섹션에서는 기본 사용법부터 고급 심층 분석까지, 시작하는 데 도움이 되는 심층적인 설명서, 실습형 자습서 및 리소스에 대한 링크를 제공합니다.
고급 분석
-
대화식 분석
-
빅 데이터 처리
-
데이터 웨어하우징
-
실시간 분석
-
운영 분석
-
대시보드 및 시각화
-
시각적 데이터 준비
-
대화식 분석
-
Amazon Athena 시작하기
Amazon Athena를 사용하여 데이터를 쿼리하고, Amazon S3에 저장된 샘플 데이터를 기반으로 테이블을 생성하고 테이블을 쿼리하고 쿼리 결과를 확인하는 방법을 알아봅니다.
Amazon Athena 기반 Apache Spark 사용하기
Amazon Athena 콘솔의 간소화된 노트북 환경에서 Python 또는 Athena 노트북 API를 사용하여 Apache Spark 애플리케이션을 개발할 수 있습니다.
AWS re:Invent 2022 - Amazon Athena의 새로운 소식
데이터 레이크, 외부 소스 등을 아우르는 모든 데이터에 Athena를 적용하는 방법을 알아보세요.
세션 보기 »Amazon Athena를 사용하여 S3의 데이터 분석
사전 정의된 형식의 텍스트 파일로 생성된 Elastic Load Balancer의 로그에 대해 Athena를 사용하는 방법을 살펴보세요. 테이블을 생성하고, Athena에서 사용하는 형식으로 데이터를 파티셔닝하고, Parquet으로 변환하며, 쿼리 성능을 비교하는 방법을 보여 줍니다.
-
빅 데이터 처리
-
AWS EMR 시작하기
Spark를 사용하여 샘플 클러스터를 시작하는 방법과 Amazon S3 버킷에 저장된 간단한 PySpark 스크립트를 실행하는 방법을 알아봅니다.
Amazon EMR on EKS 시작하기
가상 클러스터에 Spark 애플리케이션을 배포하여 Amazon EMR on EKS 사용을 시작하는 방법을 보여 드립니다.
EMR Serverless 시작하기
EMR Serverless에서 최신 오픈 소스 프레임워크를 사용하는 분석 애플리케이션의 운영을 간소화할 서버리스 런타임 환경을 제공하는 방법을 살펴봅니다. -
데이터 웨어하우징
-
Amazon Redshift 시작하기
서버리스 리소스를 생성하고, Amazon Redshift Serverless에 연결하고, 샘플 데이터를 로드한 다음, 데이터에 대한 쿼리를 실행하는 Amazon Redshift Serverless의 기본 흐름을 이해합니다.AWS에 데이터 웨어하우스 배포
Amazon Redshift 데이터 웨어하우스를 생성 및 구성하고, 샘플 데이터를 로드한 후, SQL 클라이언트를 사용하여 분석하는 방법을 알아봅니다.
-
실시간 분석
-
Amazon Kinesis Data Analytics for Apache Flink 시작하기
Kinesis Data Analytics for Apache Flink와 DataStream API의 기본 개념을 이해합니다.
가이드 살펴보기 »
Java 애플리케이션용 Amazon Kinesis Data Analytics 소개
Amazon Kinesis Data Analytics에서 Apache Flink 애플리케이션을 사용하여 보다 시기 적절하게 데이터에 대한 인사이트를 얻는 방법을 살펴봅니다.
클릭스트림 랩
스트림 스토리지에는 Amazon MSK를 사용하고 스트림 처리에는 Apache Flink 엔진과 함께 Amazon KDA for Java Applications를 사용하는 클릭스트림 사용 사례를 위한 다양한 실습을 제공합니다.
-
운영 분석
-
Amazon OpenSearch Service 시작하기
Amazon OpenSearch Service를 사용하여 테스트 도메인을 생성하고 구성하는 방법을 알아봅니다.OpenSearch Service 및 OpenSearch 대시보드로 고객 지원 문의 시각화
기업이 고객 지원 전화를 몇 통 받고 이를 분석하려고 하는 상황을 단계별로 살펴봅니다. 각 통화의 주제는 무엇인가요? 긍정적인 통화는 몇 건인가요? 부정적인 통화는 몇 건인가요? 관리자는 이러한 통화 기록을 어떻게 검색하거나 검토할 수 있나요?
Amazon OpenSearch Serverless 워크숍 시작하기
AWS Console에서 새 Amazon OpenSearch Serverless 도메인을 설정하는 방법을 알아봅니다. 사용 가능한 다양한 유형의 검색 쿼리를 살펴보고 시선을 사로잡는 시각화를 디자인하며 할당된 사용자 권한에 따라 도메인과 문서를 보호하는 방법을 배웁니다.
Amazon OpenSearch Service를 사용한 로그 분석 솔루션 구축
로그 분석 워크로드에 맞게 OpenSearch 클러스터의 크기를 조정하는 방법을 알아봅니다.
-
대시보드 및 시각화
-
Amazon QuickSight 데이터 분석 시작하기
첫 번째 분석을 생성하는 방법을 알아봅니다. 샘플 데이터를 사용하여 단순 분석 또는 고급 분석을 생성합니다. 또는 자체 데이터에 연결하여 분석을 생성할 수도 있습니다.
QuickSight를 사용한 시각화
AWS를 활용한 비즈니스 인텔리전스(BI) 및 데이터 시각화의 기술적 측면을 알아봅니다. 애플리케이션 및 웹 사이트에 대시보드를 내장하고 액세스와 권한을 안전하게 관리하는 방법을 알아봅니다.
-
시각적 데이터 준비
-
AWS Glue DataBrew 시작하기
첫 번째 DataBrew 프로젝트를 생성하는 방법을 알아봅니다. 샘플 데이터 세트를 로드하고, 해당 데이터 세트에 대해 변환을 실행하고, 이러한 변환을 캡처하기 위한 레시피를 구축하며, 작업을 실행하여 변환된 데이터를 Amazon S3에 씁니다.
AWS Glue DataBrew를 사용하여 데이터 변환
데이터 분석가와 데이터 사이언티스트가 손쉽게 데이터를 정리 및 정규화하여 분석 및 기계 학습을 위해 준비할 수 있도록 지원하는 시각적 데이터 준비 도구인 AWS Glue DataBrew에 대해 알아봅니다. AWS Glue DataBrew를 사용하여 ETL 프로세스를 구성하는 방법을 알아봅니다.
AWS Glue DataBrew Immersion Day
AWS Glue DataBrew를 사용하여 분석 및 기계 학습을 위해 데이터를 정리하고 정규화하는 방법을 살펴봅니다.
데이터 관리
-
실시간 데이터 이동
-
데이터 거버넌스
-
데이터 레이크용 객체 스토리지
-
데이터 카탈로그
-
서드 파티 데이터
-
실시간 데이터 이동
-
Amazon Kinesis Data Streams에서 스트리밍 수집 시작하기
Kinesis Data Streams에서 Amazon Redshift로 데이터를 직접 스트리밍하여 데이터 액세스에 소요되는 시간을 줄이고 스토리지 비용을 절감하는 방법을 알아봅니다.
Amazon Managed Streaming for Apache Kafka에서 스트리밍 수집 시작하기
Amazon MSK에서 Amazon Redshift로 데이터를 직접 스트리밍하여 데이터 액세스에 소요되는 시간을 줄이고 스토리지 비용을 절감하는 방법을 알아봅니다.
Amazon Redshift와의 Amazon Aurora Zero-ETL 통합 기능 시작하기
Amazon Redshift와의 Amazon Aurora 제로 ETL 통합을 통해 거의 실시간에 가까운 운영 분석을 시작하는 방법을 알아봅니다.
AWS Glue Immersion Day 워크숍
여러 실습을 통해 AWS Glue와 관련 AWS 서비스를 사용하여 실제 문제를 해결하는 방법을 보여줍니다.
Amazon Kinesis Data Firehose Immersion Day
몇 가지 구성 단계를 통해 Amazon OpenSearch 및 Amazon Redshift로 스트리밍 데이터를 손쉽게 수집하는 방법을 알아봅니다.
Amazon Kinesis Video Streams 워크숍
Amazon Kinesis Video Streams를 사용하여 카메라 디바이스에서 비디오를 수집 및 저장하고, 라이브 및 온디맨드 재생을 수행하며, 비디오 파일을 다운로드하는 방법을 알아봅니다.
-
데이터 거버넌스
-
AWS Lake Formation을 사용하여 데이터 레이크에 대한 거버넌스를 중앙 집중화
Amazon Redshift Spectrum을 사용하여 데이터 레이크를 쿼리하면서 AWS Lake Formation을 사용하여 데이터 거버넌스 및 데이터 액세스 관리를 중앙 집중화하는 방법을 알아봅니다.
Amazon DataZone 시작하기
Amazon DataZone 루트 도메인을 생성하고 데이터 포털 URL을 얻는 방법과 데이터 생산자 및 데이터 소비자를 위한 기본 Amazon DataZone 워크플로를 살펴봅니다.
-
데이터 레이크용 객체 스토리지
-
AWS Lake Formation 시작하기
Lake Formation을 처음으로 설정하여 Amazon S3의 기존 AWS Glue 데이터 카탈로그 객체 및 데이터 위치를 관리하는 방법을 알아봅니다.
중앙 스토리지 - 데이터 레이크 스토리지 플랫폼으로서의 Amazon S3
사실상 무제한의 확장성과 높은 내구성을 갖춘 Amazon S3가 데이터 레이크를 위한 최적의 기반이 되는 이유를 알아봅니다.
-
데이터 카탈로그
-
AWS Glue 데이터 카탈로그 시작하기
Amazon S3 버킷을 데이터 소스로 사용하는 첫 번째 AWS Glue 데이터 카탈로그를 만드는 방법을 알아봅니다. -
서드 파티 데이터
-
AWS Data Exchange 구독자로 시작하기
AWS Data Exchange 콘솔을 사용하여 AWS Data Exchange에서 데이터 제품 구독자로 가입하는 전체 프로세스를 알아봅니다.
AWS Data Exchange 공급자로 시작하기
AWS Data Exchange 콘솔을 사용하여 AWS Data Exchange에서 데이터 제품 공급자로 가입하는 전체 프로세스를 알아봅니다.
AWS Data Exchange 워크숍
AWS 서비스를 서드 파티 데이터와 함께 사용하여 데이터 분석 프로젝트에 인사이트를 제공하는 방법을 이해하고 배우는 데 활용할 수 있는 셀프 서비스 실습을 살펴봅니다.
Amazon AppFlow 워크숍
Amazon AppFlow에 대해 알아보고 인기 SaaS 서비스와 AWS 간에 데이터를 손쉽게 전송하는 방법을 알아봅니다.
워크숍 시작하기 »
예측 분석 및 기계 학습
-
프레임워크 및 인터페이스
-
플랫폼 서비스
-
직접 데이터 통합
-
프레임워크 및 인터페이스
-
AWS Deep Learning AMI 시작하기
적합한 DLAMI를 선택하고, 사용 사례 및 예산에 맞는 인스턴스 유형을 선택하며, 사용자 지정 설정을 설명하는 추가 정보에 대한 팁을 살펴봅니다.
가이드 살펴보기 »
딥 러닝 AMI 자습서
Conda의 소프트웨어와 함께 딥 러닝 AMI를 사용하는 방법을 보여주는 일련의 자습서입니다.
자습서 시작하기 »
AWS Deep Learning AMI를 사용하여 딥 러닝 시작하기
사용자 지정 환경과 워크플로를 구축할 수 있게 해주는 AWS Deep Learning AMI(Amazon Machine Image)에 대해 알아봅니다.
블로그 게시물 읽기 » -
플랫폼 서비스
-
Amazon SageMaker의 작동 방식
기계 학습의 개요와 Amazon의 SageMaker 작동 방식을 살펴봅니다.
Amazon SageMaker 시작하기
가상 클러스터에 Spark 애플리케이션을 배포하여 Amazon EMR on EKS 사용을 시작하는 방법을 보여 드립니다.
코드 작성 없이 기계 학습 예측 생성
코드를 한 줄도 작성하지 않고 Amazon SageMaker Canvas를 사용하여 ML 모델을 구축하고 정확한 예측을 생성하는 방법을 알아봅니다.
자습서 시작하기 »
-
직접 데이터 통합
-
Amazon Athena로 기계 학습 사용
Amazon Athena를 사용한 ML을 통해, Athena를 사용하여 Amazon SageMaker로 기계 학습(ML) 추론을 실행하는 SQL 문을 작성하는 방법을 알아봅니다.
Amazon QuickSight에서 기계 학습을 통해 인사이트 확보
Amazon QuickSight Enterprise Edition의 ML 및 자연어 기능으로 설명 및 진단 분석을 넘어 예측 및 의사 결정을 어떻게 지원할 수 있는지 알아봅니다.
Amazon Redshift ML 시작하기
Amazon SageMaker를 사용하여 Redshift 클러스터의 데이터로 모델을 훈련하는 방법을 알아봅니다.
Neptune ML을 시작하는 방법
Neptune ML을 손쉽게 설정하고 그래프 내에서 꼭짓점의 속성을 유추하는 방법을 보여줍니다.