Amazon Web Services ブログ
AWS Certified Data Analytics – Specialty の 10 の学習分野
この記事は、2023 年 1 月 26 日に Kayla Andersen によって投稿された 10 study areas for the AWS Certified Data Analytics – Specialty exam を翻訳したものです。
AWS のソリューションアーキテクトとして、過去数年間、多くの AWS のお客様がクラウドベースのデータアーキテクチャを設計、構築する際に技術的なガイダンスを提供してきました。AWS に入社する前は、データエンジニアリングから機械学習まで、データ分野でさまざまな役職を歴任しており、私はこの分野を自分の強みだと考えていました。しかし、さまざまな AWS のお客様と仕事を続けていくうちに、データパターン、ソース、ツール、要件も多様化していることに気づきました。あらゆる分析分野で知識を深めるために、AWS Certified Data Analytics – Specialty の認定を受けました。
このブログでは、AWS Certified Data Analytics – Specialty 試験に向けて私がどのように準備したかを紹介します。この認定を取得すると、データソリューションの設計と分析サービスの使用に関する専門知識が証明され、データからインサイトを引き出すことができます。この認定は、組織がクラウドイニシアチブを実施するための重要なスキルを持つ人材を特定して育成するのにも役立ちます。
認定を取得してからは、AWS でデータアーキテクチャを構築する際に、設計上の考慮事項についてお客様を支援する準備をより良く行うことができるようになりました。あなたがもし AWS のサービスを利用してデータソリューションを構築した経験がある場合は、この記事を通して試験に何を期待して、どのように準備すればよいかを学んでください。
学習分野
AWS Certified Data Analytics – Specialty 試験は、12 種類の AWS 認定 のうちの 1 つで、6 つある Specialty カテゴリの中に含まれます。試験には、AWS サービスを使用して分析ソリューションを設計、構築、保護、保守する方法についての理解度をテストする問題が含まれます。収集、保存、処理、可視化といったより広範なデータライフサイクルの一環として、サービスがどのように相互に統合されるかを理解する必要があります。
私自身の認定資格の準備と取得の経験から、この試験の受験者は以下の 10 の学習分野に焦点を当てることをお勧めします。各学習エリアには学習リソースのリストが含まれていて、そのエリアの概念と試験で期待される内容を説明してくれます(ただし網羅的ではありません)。
1. アーキテクチャパターンと設計原理
試験では単一サービスの設問だけではなく、パターンを分析して最も適切なソリューションを選択する必要があります。まずは、大まかな設計上の推奨事項、一般的なアーキテクチャパターン、その背後にあるロジックを把握することから始めてください。分析パターンの多くは、モダンデータアーキテクチャフレームワーク を中心に展開しています。モダンデータアーキテクチャでは、専用データサービスに囲まれた、データレイク間のシームレスなデータ移動を可能にする、一元化されたデータレイクを提唱しています。AWS Well-Architected Framework のデータ分析レンズ には、モダンデータアーキテクチャ、データメッシュ、バッチデータ処理、ストリーミングの取り込みと処理、運用分析、データ可視化など、最も一般的なシナリオに関する主な特徴と考慮事項が記載されています。
また、同僚の Ben Snively 氏による re: Invent のプレゼンテーション では、頻繁に遭遇するアーキテクチャパターンやベストプラクティスについて再確認することができます。
次のリソースも参考にしてください。
- ホワイトペーパー : Architectural Patterns to Build End-to-End Data Driven Applications on AWS
- ホワイトペーパー : Derive Insights from AWS Modern Data
- ホワイトペーパー : Big Data Analytics Options on AWS
- ホワイトペーパー : Build Modern Data Streaming Architectures on AWS
2. 対象となる 5 つのドメインの概念と AWS サービス
試験では、1)収集、2)ストレージとデータ管理、3)処理、4)分析と可視化、5)セキュリティ、の 5 つの分野に分類しています。多くの場合、分析の専門家はこれらの分野のいずれかを専門としています。今こそ、十分に理解していない分析分野の概念と AWS サービスを深く掘り下げるときです。
たとえば、収集ドメインには、Amazon Kinesis (Data Streams、Firehose、Data Analytics)、Amazon Managed Streaming for Apache Kafka、Amazon DynamoDB ストリーム、Amazon Simple Queue Services、AWS Database Migration Service、AWS Snowball、および AWS Direct Connect 等に関する質問が含まれます。これらのサービスの特徴と使用例、および各サービスの違いを理解しておく必要があります。また、データの順序、形式、圧縮など、主要なデータアーキテクチャの設計概念を理解しておく必要があります。
サービスについて知識を深めるためには、サービスに関するよくある質問や開発者ガイドを読むことや、AWS トレーニングのハンズオンラボまたはクラスの受講を検討してください。AWS のほとんどのガイドにはチュートリアルがあり、自習形式のラボや Immersion day も提供しています。
次のリソースも参考にしてください。
- トレーニング : Exam Readiness: AWS Certified Data Analytics – Specialty (Japanese)
- サービスガイド : AWS のドキュメント
- サービス FAQ : よくある質問
- サンプル問題 : 試験問題サンプル
- ワークショップ : AWS Workshops
(訳注:日本語のワークショップの検索には JP Contents Hub も便利です)
3. サービス間のデータ統合
モダンデータアーキテクチャでは、データプロデューサー、処理アプリケーション、データレイク、専用データストア間のシームレスなデータ移動が必要です。データ移動や処理ステップの方法を検討する際には、データのソースと宛先そして頻度が必要とするものであるかを検証することが重要です。リアルタイム、ニアリアルタイム、イベントドリブン、スケジュール実行などの違いが予想されます。試験では、どのような統合方法が存在するかを知るだけでなく、その仕組みや使用時の重要な考慮事項を知ることが求められます。
次のリソースも参考にしてください(ただし網羅的ではありません)。
- ドキュメント : Amazon Redshift – データのロード
- ドキュメント : Amazon Kinesis Data Firehose – サポートされている送信先
- ドキュメント : Amazon Kinesis Data Analytics – ソースとシンク
- ドキュメント : AWS Glue – クロール可能なデータストア
- ブログ : Crafting serverless streaming ETL jobs with AWS Glue
- ドキュメント : AWS DMS – 移行のソース
4. サービス間のデータアクセス統合
AWS は、専用のデータストアを活用し、データアクセスを民主化し、業務に適したツールを使用するデータアーキテクチャを提唱しています。これらの原則を実装するデータプラットフォームは、さまざまなデータストアやダウンストリームのユーザーがデータにアクセスできるようにする必要があります。ほとんどのツールが Amazon S3(通常はデータレイクとして使用)をサポートしており、多くのサービスには、サービス間の「境界外の」データアクセスをサポートするフェデレーションクエリなどの機能があります。試験では、これらの統合とその実装方法について質問されます。
次のリソースも参考にしてください。
- ワークショップ : AWS Modern Data Architecture Immersion Day
- ドキュメント : Amazon EMR – クラスターロケーションとデータストレージの設定
- ドキュメント : Amazon Athena – データソースへの接続
- ブログ : Amazon Redshift Spectrum 12 のベストプラクティス
- ドキュメント : Amazon QuickSight – データへの接続
5. 一般的な分析クエリシナリオ
組織はデータから実用的なインサイトを引き出すためにデータインフラストラクチャに投資しています。試験では、ストリーミング分析、ログ分析、データ可視化などが問われます。また、AWS 分析サービスには組み込みの機械学習機能が備わっているものもあるので、それらを知っておく必要もあります。
次のリソースも参考にしてください。
- ドキュメント : Amazon QuickSight – ビジュアルタイプ
- ワークショップ : QuickSight Workshops
- ブログ : Amazon Kinesis Data Analytics Studio の概要
- ワークショップ : Transform Data with AWS Glue DataBrew
- ドキュメント : Amazon Kinesis Data Analytics – ストリーミング SQL の概念
- ドキュメント : Amazon Athena – SQL リファレンス
- AWS re: Invent ビデオ : Democratizing data for self-service analytics and ML
6. アプリケーションの管理、スケーリング、更新
組織が保存、処理、クエリするデータの量と速度は指数関数的に増加しています。テラバイトのデータから始めた多くの組織は、時間が経つにつれて、ペタバイトまたはエクサバイトのデータを処理できるように拡張する必要があります。クラウドネイティブな分析アプローチは、変化する規模要件やメカニズムに柔軟に対応できるため、管理オーバーヘッドとコストを削減できます。試験では、それらの実装方法を理解することが求められます。また、AWS は分析分野に多くの新しいサーバーレスオプションを追加しています。どのサービスがサーバーレスオプションを提供するか、そしてその使用方法を知っておく必要があります。
次のリソースも参考にしてください。
- ドキュメント : Amazon Redshift – クラスターのサイズ変更
- ドキュメント : Amazon OpenSearch – ドメインのサイジング
- ドキュメント : Amazon Kinesis Data Streams – クォータと制限
- ドキュメント : Amazon Kinesis Data Streams – ストリームの作成と管理
- ドキュメント : Amazon Kinesis Data Streams – スループット専有によるカスタムコンシューマーの開発
- ドキュメント : Amazon EMR – クラスターの管理
- ブログ : Amazon EMR Serverless Now Generally Available
- ブログ : Amazon Redshift Serverless が新機能を備えて一般公開開始
7. データ分割と配信戦略
大量のデータを分散して並列処理を可能にすることは、ほとんどのデータサービスにとって重要なスケーリングコンセプトです。Amazon Kinesis と Amazon OpenSearch にはシャード、Apache Spark などのビッグデータ処理ツールにはパーティション、Amazon Redshift にはディストリビューションスタイル、Amazon QuickSight には SPICE (超高速、並列、インメモリ計算エンジン) などがあります。どのサービスでも、パーティショニング戦略、推奨サイズ、パフォーマンスを最適化する方法をよく理解している必要があります。
次のリソースも参考にしてください。
- ドキュメント : Amazon Athena – データのパーティショニング
- ドキュメント : Amazon Redshift – 分散スタイル
- ドキュメント : Amazon Redshift – 分散の例
- ブログ : Demystifying Elasticsearch shard allocation
- ブログ : Work with partitioned data in AWS Glue
- ブログ : Under the hood: Scaling your Kinesis data streams
8. セキュリティとコンプライアンス
クラウドセキュリティは AWS の最優先事項です。分析ワークロードについて言えば、セキュリティには、機密データの分類、保存中および転送中のデータの保護、データアクセスの制御、インフラストラクチャアクセスの制御、監査などが含まれます。ここでは、暗号化、Amazon VPC、AWS IAM ポリシー、AWS CloudTrail など、汎用的な AWS セキュリティの概念とサービスが重要です。また、AWS Lake Formation、Athena ワークグループ、Amazon QuickSight ユーザーなど、分析に特化したデータガバナンスツールもあります。
次のリソースも参考にしてください。
- Well Architected Framework : セキュリティ (Data Analytics Lens)
- ホワイトペーパー : AWS Glue Best Practices: Building a Secure and Reliable Data Pipeline
- ブログ : Easily manage your data lake at scale using AWS Lake Formation Tag-based access control
- ブログ : Design patterns for an enterprise data lake using AWS Lake Formation cross-account access
- ドキュメント : Amazon RedShift – データベースセキュリティの管理
- ドキュメント : Amazon EMR – セキュリティ
- ワークショップ : Amazon Athena Workshop
- ドキュメント : Using AWS Lake Formation with Amazon QuickSight
9. 分析ワークロードの監視とトラブルシューティング
モニタリングは、AWS 分析サービスの信頼性、可用性、パフォーマンスを維持する上で重要です。Amazon CloudWatch は、分析サービスの多くの主要なメトリクスをモニタリングします。各サービスにとってどの指標が最も重要か、一般的な問題とその解決方法を知っておく必要があります。一部のサービスには追加の監視ダッシュボードがあります(特に AWS Glue のような Spark ベースのワークロード)。
次のリソースも参考にしてください。
- ドキュメント : AWS Glue – Spark ジョブのモニタリング
- ナレッジセンター : Kinesis Data Streams の問題をモニタリングおよびトラブルシューティングするには、どのメトリクスを使用する必要がありますか?
- ナレッジセンター : Kinesis Data Streams がスロットリングされているのはなぜですか?
- ドキュメント : Amazon OpenSearch Service – 推奨される CloudWatch アラーム
- ドキュメント : Amazon Redshift – クエリのパフォーマンスに影響する要因
10. Amazon S3
Amazon S3 は、AWS 上に構築されたデータプラットフォームの基盤として機能します。Amazon S3 は、柔軟で耐久性があり、可用性が高く、低コストで、ほぼ無限にスケーラブルなデータストアです。これは、データアーキテクチャや試験でよくフォーカスされるサービスです。データアーキテクトは、ライフサイクルポリシー、統合、最適なストレージオプション、セキュリティ、アクセスパターン、リージョン間のデータ転送を理解する必要があります。たとえば、Amazon Athena は S3 Glacier ストレージクラスに保存されているデータを読み取ることはできません。
次のリソースも参考にしてください。
- ホワイトペーパー : Storage Best Practices for Data and Analytics Applications
- ドキュメント : Amazon S3 – ストレージクラス
- ドキュメント : Amazon Athena – トラブルシューティング
- ドキュメント : Amazon QuickSight – Amazon S3 ファイルを使用したデータセットの作成
- ブログ : S3 Select と Glacier Select – オブジェクトのサブセットを取得
- ドキュメント : Amazon S3 – セキュリティベストプラクティス
- ナレッジセンター : Amazon S3 からの HTTP 500 または 503 エラーをトラブルシューティングするにはどうすればよいですか?
実際に体験してみる
AWS サービスを実際に体験して理解を深めることに勝るものはありません。私の場合、試験の準備の一環として、AWS アカウント内にストリーミングおよびバッチデータの取り込みアーキテクチャをいくつか構築しました。ぜひ トレーニングサイト にサインアップして、AWS Skill Builder の オンデマンドデジタルコース、講師によるバーチャル/対面の クラスルームトレーニング、バーチャルウェビナー、Exam Readiness コース をご利用ください。AWS Certified Data Analytics – Specialty 試験ページは、準備計画を立てるのにも役立ちます。
(訳注:AWS Skill Builder では Exam Readiness コースだけでなく 練習問題 も提供しています)
AWS 認定の価値
あらゆる業界の組織が、今日の複雑で混乱したビジネス環境において、意思決定を加速させたいと考えています。AWS の柔軟なデータ処理サービスを活用してこれらのビジネス成果をサポートする方法を理解している技術専門家が必要です。AWS Certified Data Analytics – Specialty は、IT またはエンジニアリングの専門家の知識を検証し、コスト効率が高く、安全で、高性能なデータ処理アーキテクチャを AWS で設計する方法を理解していることを示す機会となります。認定試験の準備は、あらゆるテクノロジーに関する知識を深めるための優れた方法です。この試験の受験を検討して、これらのメリットを体験していただければ幸いです。幸運を祈ります!
この記事の翻訳は Technical Trainer の生出拓馬が担当しました。