最新のデータアーキテクチャを支援する
はじめに
データは、アプリケーションやユーザーによって安全にアクセスおよび分析される必要があります。データは新しく多様なソースから得られており、その量は前例のない速度で増大しています。組織はデータの価値を抽出する必要がありますが、今日における先端的なビジネスによって生成されるデータをすべて取得、保存、分析するために苦戦しています。
これらの課題に対処するには、分析とインサイトを得るためにサードパーティーデータを含むすべてのデータサイロを解消し、エンドツーエンドのガバナンスを整えた上で、組織内の全員がそれらのデータを利用できるようにする、最新のデータアーキテクチャを構築する必要があります。また、分析と機械学習 (ML) システムを接続して予測分析を可能にすることもますます重要になっています。
この意思決定ガイドは、AWS サービス上に最新のデータアーキテクチャを構築するために適切な質問をするのに役立ちます。このガイドは、サイロを解消する方法について説明します。データサイロはデータレイクとデータウェアハウスを接続することによって、システムサイロは ML と分析を接続することによって、人的サイロは組織内の全員がデータを利用できるようにすることによって、それぞれ解消します。
この 6 分間の短い動画は、re:Invent 2022 での AWS Analytics 担当 VP である G2 Krishnamoorthy による 1 時間のプレゼンテーションの一部です。この動画では、AWS の分析サービスの概要を知ることができます。このプレゼンテーション全体では、AWS での分析の現状と、データに関する最新のサービスイノベーションについて取り上げているほか、AWS の分析を利用したお客様の成功に焦点を当てています。
所要時間
20 分
目的
組織に最適な AWS 分析サービスを判断するのに役立ちます。
レベル
初心者
最終更新日
2023 年 8 月 8 日
対象サービス
理解
最新のデータ戦略は、データの管理、アクセス、分析、およびデータに基づく対応をサポートする、テクノロジーの一連のビルディングブロックによって実現されます。また、データソースに接続するための複数のオプションも備えています。最新のデータ戦略により、チームの次の能力が強化されます。
- 優先するツールや手法を用いて分析や ML を実行する
- 適切なセキュリティとデータガバナンスコントロールにより、誰がデータにアクセスできるかを管理する
- データサイロを解消し、データレイクと専用データストアの両方を最大限に活用する
- 任意の量のデータを低コストで、オープンかつ標準ベースのデータ形式で保存する。AWS の最新のデータアーキテクチャは、レイク、ウェアハウス、および他の専用サービスを互いに接続し一体化します。
AWS での最新のデータ戦略の実装は、次の 5 つの柱に基づいています。
スケーラブルなデータレイク
意思決定を迅速に行うには、あらゆる量のデータをオープン形式で保存し、接続が切断されているデータサイロを解消できる必要があります。また、適切なセキュリティとデータガバナンスコントロールを整えて、特定のデータに誰がアクセスできるかを管理するだけでなく、組織内のユーザーが (優先するツールや手法を用いて) 分析や ML を実行できるようにする必要がある場合もあります。
最新のデータアーキテクチャはデータレイクから始まります。データレイクを利用すると、すべてのデータ (リレーショナル、非リレーショナル、構造化、非構造化) をコスト効率よく保存できます。AWS を利用すると、さまざまなサイロから任意の量のデータを Amazon S3 データレイクに移動できます。その後、Amazon S3 は、標準ベースのオープン形式を利用してデータを保存します。
パフォーマンスとコストを重視した専用設計
オンプレミスのデータパイプラインは、現在利用しているツールに後付けされることが多く、提供されるエクスペリエンスは最適であるとは言えません。AWS は、広範かつ奥深い一連の専用データサービスを提供し、機能、パフォーマンス、規模、コストについて妥協することなく、適切なジョブに適切なツールを選択することを可能にします。
サーバーレスで使いやすい
AWS は、さまざまな種類の分析ニーズに対応するために、インフラストラクチャを管理することなく、アプリケーションに注力できるように設計されたサーバーレスオプションを提供しています。
生データを変換して、ビジネス上のインサイトを引き出すために利用し、データパイプラインの抽出、変換、ロード (ETL) ステージで実行できる状態にするプロセスは、困難な場合があります。AWS は、ゼロ ETL アプローチ (従来の ETL プロセスを不要とするアプローチ) に向かっています。このアプローチは、ETL を利用せずに、データが存在する場所でそのデータを分析するのに役立ちます。このアプローチをサポートする AWS サービス内の機能には次が含まれます。
- Amazon ゼロ ETL (Aurora から Redshift へ)
- Kinesis および MSK から Redshift への Amazon Redshift ストリーミングの直接取り込み
- Amazon Redshift および Amazon Athena のフェデレーテッドクエリ
統合されたデータアクセス、セキュリティ、ガバナンス
一元化されたデータレイクと専用の分析サービスのコレクションを用意したら、そのデータが存在する場所にかかわらず、そのデータにアクセスして、安全に保護し、関連する規制やセキュリティに関するベストプラクティスに準拠するためのガバナンスポリシーを確立できる必要があります。
ガバナンスは AWS Lake Formation から始まります。このサービスを利用すると、データベース、データウェアハウス、専用データストア、データレイクなど、その存在場所にかかわらずデータにアクセスし、その保存場所にかかわらずデータを安全に保つことができます。
データガバナンスに関して、AWS は、データを自動的に検出、タグ付け、カタログ化し、その同期状態を維持します。お客様は、セキュリティ、ガバナンス、監査ポリシーを一元的に定義および管理して、業界や地域に固有の規制を遵守できます。
組み込み機械学習
AWS は、専用分析サービスの一部として、組み込み ML 統合を提供しています。ML の経験がなくても、使い慣れた SQL コマンドを使用して、ML モデルを構築、トレーニング、デプロイできます。
さまざまなユースケースに応じて、さまざまなタイプのデータストア (リレーショナル、非リレーショナル、データウェアハウス、分析サービス) を利用することは珍しくありません。AWS では、データをエクスポートして処理することなく、データを利用してモデルをトレーニングしたり、推論結果をデータストアから直接追加したりするためのオプションを提供するさまざまな統合を用意しています。
検討事項
AWS 上で分析パイプラインを構築する理由はたくさんあります。クラウド移行ジャーニーの最初のステップとして、グリーンフィールドプロジェクトまたはパイロットプロジェクトをサポートする必要がある場合があります。あるいは、中断を最低限に抑えつつ、既存のワークロードを移行しようとしているかもしれません。目的が何であれ、選択する際には次の考慮事項が役立つ場合があります。
-
データソースとデータタイプを評価する
-
データ処理要件
-
ストレージ要件
-
データのタイプ
-
運用上の考慮事項
-
ワークロードの種類
-
必要な分析の種類
-
スケーラビリティとパフォーマンスを評価
-
データガバナンス
-
セキュリティ
-
統合とデータフローを計画する
-
コスト最適化を実現するために設計する
-
データの多様性、頻度、品質を包括的に理解するために、使用可能なデータソースとデータタイプを分析します。データの処理と分析における潜在的な課題を理解しましょう。 この分析は次の理由から非常に重要です。
- データソースは多様で、さまざまなシステム、アプリケーション、デバイス、外部プラットフォームから取得されます。
- 各データソースは独自の構造および形式を備えており、固有のデータ更新頻度が設定されています。これらのソースを分析することは、適切なデータ収集方法とテクノロジーを特定するのに役立ちます。
- 構造化データ、半構造化データ、非構造化データなどのデータタイプを分析することで、適切なデータ処理と保存のアプローチを知ることができます。
- データソースとデータのタイプを分析すると、データ品質の評価が容易になり、欠けている値、一貫性の欠如、または不正確性など、データ品質に関する潜在的な問題を予測するのに役立ちます。
-
データの取り込み、変換、クレンジング、および分析の準備を行う方法に関するデータ処理要件を決定します。重要な考慮事項には次が含まれます。
- データ変換: 生データを分析に適したデータにするために必要な特定の変換を決定します。これには、データの集約、正規化、フィルタリング、エンリッチメントなどのタスクが含まれます。
- データクレンジング: データ品質を評価し、欠けているデータ、不正確なデータ、または一貫性のないデータを処理するプロセスを定義します。データクレンジングの手法を実装して、信頼性の高いインサイトを得るために、データが高品質であるようにします。
- 処理頻度: 分析のニーズに基づいて、リアルタイム、ほぼリアルタイム、またはバッチ処理が必要かどうかを決定します。リアルタイム処理を利用すると直ちにインサイトを得ることができますが、定期的な分析にはバッチ処理で十分な場合があります。
- スケーラビリティとスループット: データ量、処理速度、同時データリクエスト数の処理に関するスケーラビリティ要件を評価します。選択した処理アプローチが将来の成長に対応できるものであるようにしてください。
- レイテンシー: データ処理についての許容可能なレイテンシーと、データインジェストから分析結果を得るまでにかかる時間を考慮します。これは、リアルタイムまたは時間が重要な要素である分析にとって特に重要です。
-
分析パイプライン全体におけるデータの保存方法と保存場所を決定することで、ストレージのニーズを明らかにします。重要な考慮事項には次が含まれます。
- データ量: 生成および収集されるデータの量を評価し、将来のデータ増加を予測して、十分なストレージキャパシティを計画します。
- データ保持: 履歴分析またはコンプライアンスの目的でデータを保持する必要がある期間を定義します。適切なデータ保持ポリシーを決定します。
- データアクセスパターン: 最適なストレージソリューションを選択するために、データがどのようにアクセスおよびクエリされるかを理解します。読み取りおよび書き込みオペレーション、データアクセスの頻度、データの局所性を考慮します。
- データセキュリティ: 機密情報を保護するための暗号化オプション、アクセスコントロール、およびデータ保護メカニズムを評価して、データセキュリティを優先します。
- コスト最適化: データのアクセスパターンと利用状況に基づいて、最もコスト効率の高いストレージソリューションを選択することで、ストレージコストを最適化します。
- 分析サービスとの統合: 選択したストレージソリューションと、パイプライン内のデータ処理および分析ツールの間のシームレスな統合を実現します。
-
データの収集と取り込みのための分析サービスを決定する際には、組織のニーズと目的に関連するさまざまなタイプのデータを考慮します。考慮が必要な可能性のある一般的なデータのタイプには次が含まれます。
- 取引データ: 顧客の購入、金融取引、オンライン注文、ユーザーアクティビティのログなど、個別のやり取りや取引に関する情報が含まれます。
- ファイルベースのデータ: ログファイル、スプレッドシート、ドキュメント、画像、音声ファイル、動画ファイルなど、ファイルに保存されている構造化データまたは非構造化データをいいます。分析サービスは、さまざまなファイル形式の取り込みをサポートする必要があります。
- イベントデータ: ユーザーアクション、システムイベント、マシンイベント、ビジネスイベントなどの重要な出来事やインシデントをキャプチャします。イベントは、オンストリームまたはダウンストリーム処理のためにキャプチャされた、高速で到着するあらゆるデータを含む可能性があります。
-
運用上の責任はお客様と AWS の間で共有され、責任の分担はモダナイゼーションのさまざまなレベルによって異なります。AWS 上の分析インフラストラクチャを自己管理するか、または多数のサーバーレス分析サービスを利用してインフラストラクチャ管理の負担を軽減するかを選択できます。
自己管理オプションでは、ユーザーはインフラストラクチャと設定をより詳細に制御できますが、運用により多くの労力がかかります。
サーバーレスオプションは運用上の負担の多くを抽象化して軽減し、自動スケーラビリティ、高可用性、堅牢なセキュリティ機能を提供するため、ユーザーはインフラストラクチャや運用タスクの管理ではなく、分析ソリューションの構築とより深いインサイトの取得に集中できるようになります。サーバーレス分析ソリューションの次の利点を考慮してください。
- インフラストラクチャの抽象化: サーバーレスサービスはインフラストラクチャ管理を抽象化し、プロビジョニング、スケール、メンテナンスのタスクからユーザーを解放します。AWS がこれらの運用面を処理するため、管理オーバーヘッドが削減されます。
- 自動スケーリングとパフォーマンス: サーバーレスサービスは、ワークロードの需要に基づいてリソースを自動的にスケールし、手動介入なしで最適なパフォーマンスを実現します。
- 高可用性とディザスタリカバリ: AWS はサーバーレスサービスのために高可用性を提供します。AWS は、データの冗長性、レプリケーション、ディザスタリカバリを管理して、データの可用性と信頼性を強化します。
- セキュリティとコンプライアンス: AWS は、業界標準とベストプラクティスに準拠して、サーバーレスサービスのセキュリティ対策、データ暗号化、コンプライアンスを管理します。
- モニタリングとログ記録: AWS は、サーバーレスサービス向けに、組み込みのモニタリング、ログ記録、アラート機能を提供します。ユーザーは、AWS CloudWatch を通じて詳細なメトリクスとログにアクセスできます。
-
最新の分析パイプラインを構築する場合、さまざまな分析ニーズに効果的に対応するために、サポートするワークロードの種類を決定することが非常に重要です。ワークロードの種類ごとに考慮すべき重要な決定事項には次が含まれます。
バッチワークロード
- データの量と頻度: バッチ処理は、定期的に更新される大量のデータに適しています。
- データレイテンシー: バッチ処理では、リアルタイム処理と比較して、インサイトの提供に多少の遅れが生じる可能性があります。
インタラクティブ分析
- データクエリの複雑さ: インタラクティブ分析では、迅速なフィードバックを得るために低レイテンシーの応答が必要です。
- データビジュアライゼーション: ビジネスユーザーがデータを視覚的に探索できるようにする、インタラクティブなデータビジュアライゼーションツールの必要性を評価します。
ストリーミングワークロード
- データの速度と量: ストリーミングワークロードでは、高速データを処理するためにリアルタイム処理が必要です。
- データウィンドウ処理: ストリーミングデータ用にデータウィンドウ処理と時間ベースの集計を定義して、関連するインサイトを抽出します。
-
ビジネス目標と、分析から引き出したいと考えるインサイトを明確に定義します。分析の種類ごとに、その目的は異なります。例:
- 記述分析は、履歴の概要を得るのに最適です
- 診断分析は、過去の出来事の背後にある理由を理解するのに役立ちます
- 予測分析は、将来の結果を予測します
- 処方的分析は、最適なアクションに関する推奨事項を提供します
ビジネス目標と、関連する種類の分析が一致するようにしてください。適切な種類の分析を選択するのに役立つ重要な決定基準を次にいくつか示します。
- データの可用性と品質: 記述分析と診断分析は履歴データに依拠する一方で、予測分析と処方的分析では正確なモデルを構築するために十分な履歴データと高品質のデータが必要です。
- データの量と複雑さ: 予測分析と処方的分析では、大量のデータ処理と計算リソースが必要です。インフラストラクチャとツールがデータの量と複雑さに確実に対処できるようにしてください。
- 意思決定の複雑さ: 複数の可変的な要因、制約、目的が意思決定に関係する場合、最適なアクションを導くには処方的分析がより適している場合があります。
- リスク許容度: 処方的分析からは推奨事項が得られることがありますが、これには関連する不確実性が伴います。分析の出力に関連するリスクを、意思決定者が確実に理解できるようにしてください。
-
アーキテクチャのスケーラビリティとパフォーマンスのニーズを評価します。設計は、増加するデータ量、ユーザーの要求、分析ワークロードに対応できるものである必要があります。考慮すべき重要な決定要素には次が含まれます。
- データ量と増加: 現在のデータ量を評価し、将来の増加を予測します。
- データ速度とリアルタイム要件: データをリアルタイムまたはほぼリアルタイムで処理および分析する必要があるかどうかを判断します。
- データ処理の複雑さ: データ処理および分析タスクの複雑さを分析します。計算を多用するタスクの場合、Amazon EMR などのサービスは、ビッグデータ処理のためにスケーラブルなマネージド環境を提供します。
- 同時実行とユーザー負荷: 同時実行ユーザーの数と、システム上のユーザー負荷のレベルを考慮します。
- 自動スケーリング機能: 需要に応じてリソースが自動的にスケールアップまたはスケールダウンすることを可能にする、自動スケーリング機能を提供するサービスを検討します。これにより、リソースの効率的な利用とコスト最適化を実現できます。
- 地理的分散: データアーキテクチャを複数の地域またはロケーションに分散する必要がある場合は、グローバルレプリケーションと低レイテンシーのデータアクセスを備えたサービスを検討します。
- コストとパフォーマンスのトレードオフ: パフォーマンスのニーズとコストのバランスを考慮します。高パフォーマンスのサービスは、より高コストである可能性があります。
- サービスレベルアグリーメント (SLA): AWS サービスによって提供される SLA で、これらのサービスがスケーラビリティとパフォーマンスの期待レベルを確実に満たしていることを確認します。
-
データガバナンスは、データアセットの効果的な管理、品質、セキュリティ、コンプライアンスを実現するために実装する必要がある一連のプロセス、ポリシー、コントロールです。考慮すべき重要な決定事項には次が含まれます。
- データ保持ポリシー: 規制要件とビジネスニーズに基づいてデータ保持ポリシーを定義し、不要になったデータを安全に破棄するためのプロセスを確立します。
- 監査証跡とログ記録: データのアクセスと利用状況をモニタリングするためのログ記録および監査メカニズムを決定します。コンプライアンスとセキュリティをモニタリングするために、包括的な監査証跡を実装して、データの変更、アクセスの試行、ユーザーのアクティビティを追跡します。
- コンプライアンス要件: 組織に適用される業界ごとの、および地理的なデータコンプライアンス関連規制を理解します。データアーキテクチャがこれらの規制およびガイドラインに確実に準拠しているようにしてください。
- データ分類: 機密性に基づいてデータを分類し、データクラスごとに適切なセキュリティコントロールを定義します。
- ディザスタリカバリと事業継続性: 予期しないイベントやシステム障害が発生した場合のデータの可用性と回復力を確保するために、ディザスタリカバリと事業継続性について計画します。
- サードパーティーのデータ共有: サードパーティーのエンティティとデータを共有する場合は、データの秘密性を保護し、データの悪用を防ぐために、安全なデータ共有プロトコルを実装するとともに、契約を締結します。
- データ保持ポリシー: 規制要件とビジネスニーズに基づいてデータ保持ポリシーを定義し、不要になったデータを安全に破棄するためのプロセスを確立します。
-
分析パイプライン内のデータのセキュリティには、秘密性、完全性、可用性を確保するために、パイプラインのあらゆる段階でデータを保護することが含まれます。考慮すべき重要な決定事項には次が含まれます。
- アクセスコントロールと認可: 堅牢な認証および認可プロトコルを実装して、認可されたユーザーのみが特定のデータリソースにアクセスできるようにします。
- データ暗号化: データベースやデータレイクに保存されているデータ、およびアーキテクチャのさまざまなコンポーネント間でのデータ移動中の適切な暗号化方法を選択します。
- データマスキングと匿名化: 特定の分析プロセスを継続できるようにしながら、PII や機密性の高いビジネスデータなどの機密データを保護するために、データのマスキングまたは匿名化の必要性を検討します。
- 安全なデータ統合: 安全なデータ統合プラクティスを確立して、アーキテクチャのさまざまなコンポーネント間でデータが安全に流れるようにし、データ移動中のデータ漏えいや不正アクセスを回避します。
- ネットワーク分離: リソースがパブリックインターネットに公開されないようにするために、AWS VPC エンドポイントをサポートするサービスを検討します。
-
分析パイプラインのさまざまなコンポーネント間の統合ポイントとデータフローを定義して、シームレスなデータフローと相互運用性を実現します。考慮すべき重要な決定事項には次が含まれます。
- データソースの統合: データベース、アプリケーション、ファイル、外部 API など、データの収集元となるデータソースを特定します。効率的かつ最小限のレイテンシーでデータをパイプラインに取り込むためのデータインジェスト方法 (バッチ、リアルタイム、イベントベース) を決定します。
- データ変換: 分析用のデータを準備するために必要な変換を決定します。パイプライン内を移動するデータをクリーニング、集約、正規化、またはエンリッチ化するためのツールとプロセスを決定します。
- データ移動アーキテクチャ: パイプラインコンポーネント間のデータ移動に適切なアーキテクチャを選択します。リアルタイム要件とデータ量に基づいて、バッチ処理、ストリーム処理、またはその両方の組み合わせを検討します。
- データのレプリケーションと同期: すべてのコンポーネントにわたってデータを最新の状態に保つために、データのレプリケーションと同期のメカニズムを決定します。データ鮮度に関する要件に応じて、リアルタイムレプリケーションソリューションまたは定期的なデータ同期を検討します。
- データの品質と検証: データがパイプライン内を移動する際の完全性を確保するために、データ品質のチェックと検証ステップを実装します。データの検証に失敗したときに実行するアクション (アラートやエラー処理など) を決定します。
- データのセキュリティと暗号化: 転送中および保管中のデータをどのように保護するかを決定します。データの機密性に基づいて必要となるセキュリティのレベルを考慮して、パイプライン全体で機密データを保護するための暗号化方法を決定します。
- スケーラビリティと回復力: データフローが水平方向のスケーラビリティを実現できるように設計されており、増加したデータ量とトラフィックの処理が可能であるようにします。
-
AWS 上で分析パイプラインを構築すると、さまざまなコスト最適化の機会が得られます。高いコスト効率を実現するには、次の戦略を検討します。
- リソースのサイズ設定と選択: 実際のワークロード要件に基づいてリソースのサイズを適切に設定します。オーバープロビジョニングを回避しながら、ワークロードのパフォーマンスのニーズに一致する AWS サービスとインスタンスタイプを選択します。
- 自動スケーリング: さまざまなワークロードが発生するサービスのために自動スケーリングを実装します。自動スケーリングは、需要に基づいてインスタンスの数を動的に調整し、トラフィックが少ない期間中のコストを削減します。
- スポットインスタンス: 非クリティカルかつフォールトトレラントなワークロードのために AWS EC2 スポットインスタンスを利用します。スポットインスタンスは、オンデマンドインスタンスと比較してコストを大幅に削減できます。
- リザーブドインスタンス: オンデマンド料金と比べて大幅なコスト削減を実現するために、利用量が予測可能な安定したワークロード用の AWS リザーブドインスタンスの購入を検討します。
- データストレージの階層化: データアクセス頻度に基づいてさまざまなストレージクラスを利用して、データストレージのコストを最適化します。
- データライフサイクルポリシー: データライフサイクルポリシーを設定して、データが作成されてから経過した時間と使用パターンに基づいてデータを自動的に移動または削除します。これによってストレージコストの管理を改善でき、データストレージとその価値のバランスを維持できます。
選択
分析ニーズを評価する基準を理解したので、組織のニーズに適した AWS の分析サービスを選択する準備が整いました。次の表では、高度な分析の実施、データ管理または予測分析の実行、ML など、ビジネス目標を達成するために必要なことと、それに対応する一連のサービスを分類しています。
インタラクティブ分析
リアルタイムのデータ分析と探索を実行するプロセス。これにより、ユーザーはインタラクティブにデータをクエリおよび視覚化し、インサイトを得てデータ駆動型の意思決定を迅速に行うことができます。
Amazon Athena
Amazon Athena は、オープンソースフレームワーク上に構築されたサーバーレスのインタラクティブな分析サービスで、オープンテーブルとファイル形式をサポートしています。Athena は、ペタバイト規模のデータを、その存在場所で分析するための簡素化された柔軟な方法を提供します。Amazon S3 データレイクと 30 のデータソース (オンプレミスデータソースや SQL または Python を利用した他のクラウドシステムを含む) からデータを分析したり、アプリケーションを構築したりできます。Athena は、オープンソースの Trino および Presto エンジンと Apache Spark フレームワーク上に構築されており、プロビジョニングや設定は不要です。
ビッグデータ処理
ビッグデータは、量、速度、多様性という 3 つの側面によって特徴付けられます。 ビッグデータ処理ソリューションは、ビッグデータの規模の大きさと高度な複雑さによってもたらされる課題を克服することを目的としています。
Amazon EMR は、Apache Spark、Apache Hive、Presto などのオープンソースフレームワークを利用して、ペタバイト規模のデータ処理、インタラクティブ分析、機械学習を実行するための、業界をリードするクラウドビッグデータソリューションです。
データウェアハウジング
組織内のさまざまなソースから得られる大量の構造化データ、場合によっては半構造化データの一元的な保管、整理、取得。
Amazon Redshift は、SQL を使用して、データウェアハウス、運用データベース、データレイクにわたって構造化および半構造化データを分析し、AWS が設計したハードウェアと機械学習を利用して、あらゆる規模で極めて高い料金パフォーマンスを実現します。
リアルタイム分析
データが生成もしくは受信され、または取り込まれたときに、大幅な遅延なく分析および処理するプロセス。
Amazon Kinesis Data Analytics では、Apache Flink を利用してストリーミングデータをより簡単にリアルタイムで変換および分析できます。
運用分析
組織内で進行中の運用プロセスと活動を最適化および改善することを目的とした、リアルタイムのデータ分析とインサイトの利用。
OpenSearch は、分散型かつコミュニティ主導型で、Apache 2.0 ライセンス採用、100% オープンソースの検索および分析スイートです。リアルタイムのアプリケーションモニタリング、ログ分析、ウェブサイト検索などの幅広いユースケースに利用されています。OpenSearch は、統合された視覚化ツールである OpenSearch Dashboards を利用して、大量のデータへの高速アクセスと応答を提供するための高度にスケーラブルなシステムを提供します。これにより、ユーザーはデータを簡単に探索できます
ダッシュボードと可視化
ダッシュボードとビジュアライゼーションは、複雑なデータセットを視覚的に表現し、ユーザーがパターン、傾向、インサイトを一目でより簡単に把握できるようにします。視覚的に魅力的かつ直感的な方法で情報を提示することで、技術者以外のユーザーにもデータを理解しやすくします。
Amazon QuickSight は統合ビジネスインテリジェンス (BI) を利用して、データ駆動型の組織をハイパースケールで強化します。QuickSight では、最新のインタラクティブダッシュボード、ページ分割されたレポート、埋め込み分析、自然言語クエリを通じて、同一の信頼できる情報源から、あらゆるユーザーのさまざまな分析ニーズに対応できます。
ビジュアルデータの準備
視覚的なツールとインターフェイスを使用して、視覚的かつ直感的な方法でデータを探索、クリーニング、変換、操作します。
AWS Glue DataBrew
AWS Glue DataBrew は、データアナリストやデータサイエンティストがデータをクリーニングおよび正規化し、分析や機械学習の準備をするのを容易にする、視覚的なデータ準備ツールです。250 を超える事前構築された変換から選択して、コードを記述することなくデータ準備タスクを自動化できます。
リアルタイムのデータ移動
リアルタイムのデータ移動では、データ転送の遅延は最小限に抑えられ、通常はデータが利用可能になってから数秒または数ミリ秒です。
Amazon Managed Streaming for Apache Kafka (Amazon MSK) は、Apache Kafka を利用してストリーミングデータを処理するアプリケーションの構築と実行を可能にする、フルマネージドサービスです。Amazon MSK は、クラスターの作成、更新、削除などのコントロールプレーンのオペレーションを提供します。
Amazon Kinesis Data Streams は、サーバーレスストリーミングデータサービスです。あらゆる規模のデータストリームを簡単にキャプチャ、処理、保存できるようにします。
Amazon Kinesis Data Firehose は、ストリーミングデータを確実にキャプチャおよび変換し、データレイク、データストア、および分析サービスに配信する、抽出、変換、ロード (ETL) サービスです。
Amazon Kinesis Video Streams を利用すると、分析、ML、再生、その他の処理のために、接続されたデバイスから AWS に動画を簡単かつ安全にストリーミングできます。Kinesis Video Streams は、数百万ものデバイスからの動画のストリーミングデータを取り込むために必要なすべてのインフラストラクチャを、自動的にプロビジョニングして、伸縮自在にスケールします。高い耐久性をもって、ストリーム内の動画データの保存、暗号化、インデックス作成を行い、使いやすい API を介してデータにアクセスできるようにします。
データガバナンス
データのライフサイクル全体を通じて、そのデータの適切な管理、可用性、使いやすさ、完全性、セキュリティを実現するための一連のプロセス、ポリシー、ガイドライン。
Amazon DataZone を利用して、組織の境界を越えて大規模にデータを共有、検索、検出します。ガバナンスとコンプライアンスのポリシーを適用しながら、すべてのデータのパーソナライズされたビューを示す統合データ分析ポータルを通じて、データプロジェクトで共同作業を行うことができます。
AWS Lake Formation は、データレイクの構築、セキュリティ保護、管理をサポートするフルマネージドサービスです。Lake Formation は、データレイクの作成に通常必要となる複雑な手動ステップの多くを簡素化および自動化します。これらのステップには、データの収集、クレンジング、移動、カタログ化と、そのデータを分析や機械学習で安全に利用できるようにすることが含まれます。
データレイクのオブジェクトストレージ
AWS 上に構築されたデータレイクは、プライマリストレージプラットフォームとして Amazon S3 を利用します。Amazon S3 は、事実上無制限のスケーラビリティと高い耐久性を理由として、データレイクに最適な基盤となっています。
Amazon Simple Storage Service (Amazon S3) は、スケーラビリティ、データ可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。Amazon S3 は管理機能を提供するため、データへのアクセスを最適化、整理、設定して、特定のビジネス、組織、およびコンプライアンスの要件を満たすことができます。
AWS Lake Formation は、データレイクの構築、セキュリティ保護、管理をサポートするフルマネージドサービスです。Lake Formation は、データレイクの作成に通常必要となる複雑な手動ステップの多くを簡素化および自動化します。これらのステップには、データの収集、クレンジング、移動、カタログ化と、そのデータを分析や機械学習で安全に利用できるようにすることが含まれます。
データレイクのバックアップとアーカイブ
Amazon S3 を活用したデータレイクは、より深いインサイトを得るために最新の分析アプローチに必要な可用性、俊敏性、柔軟性を組織に提供します。これらの S3 バケットに保存されている機密情報やビジネスクリティカルな情報を保護することは、組織にとって最優先事項です。
データカタログ
メタデータ管理ツール。利用可能なデータ、その構造、特性、関係に関する詳細情報を提供します。
AWS Glue は、サーバーレスなデータ統合サービスであり、分析、機械学習 (ML)、アプリケーション開発のために、複数のソースからデータを検出、準備、移動、統合することをより容易にします。
サードパーティーのデータ
サードパーティーデータと Software as a Service (SaaS) データは、データ駆動型の最新の環境におけるビジネス運営にとってますます重要になっています。
フレームワークとインターフェイス
AWS の ML インフラストラクチャは、主要な ML フレームワークをすべてサポートしています。
AWS Deep Learning AMI (DLAMI) は、ML の実践者や研究者に、クラウドでの深層学習を加速するための厳選された安全なフレームワーク、依存関係、ツールのセットを提供します。Amazon Linux および Ubuntu 向けに構築されている Amazon マシンイメージ (AMI) には、TensorFlow、PyTorch、Apache MXNet、Chainer、Microsoft Cognitive Toolkit (CNTK)、Gluon、Horovod、Keras が事前に設定されているため、これらのフレームワークやツールを迅速にデプロイして大規模に実行できます。
プラットフォームサービス
機械学習モデルの構築、トレーニング、デプロイのためのフルマネージドインフラストラクチャ。
フルマネージドインフラストラクチャ、ツール、ワークフローを使用して、あらゆるユースケース向けの機械学習 (ML) モデルを構築、トレーニング、デプロイします。
直接的なデータ統合
使い慣れた SQL コマンドを使用して ML モデルを作成、トレーニング、デプロイします。
Athena ML を利用すると、Amazon SageMaker で ML モデルを構築およびデプロイしたり、Amazon Athena で SQL 関数を使用して SageMaker モデルから予測を生成したりできます。
この機能により、分析チームは、特殊なツールやインフラストラクチャを使う必要なく、ビジネスユーザーやアナリストにモデル駆動型のインサイトを提供できます。
QuickSight ML Insights は、AWS の実績ある ML と自然言語 (NL) 機能を利用して、お客様がデータからより深いインサイトを得るのをサポートします。これらのすぐに使用できる強力な機能によって、技術的な専門知識や ML の利用経験がなくても、誰でも簡単に隠れた傾向や異常値を発見し、主なビジネス要因を特定して、強力な What-if 分析と予測を実行できます。
Amazon Redshift ML により、データアナリストやデータベースデベロッパーは Amazon Redshift データウェアハウスで使い慣れた SQL コマンドを使用して機械学習モデルを簡単に作成、トレーニング、適用できます。Redshift ML を利用すると、新しいツールや言語を学習しなくても、フルマネージド型の機械学習サービスである Amazon SageMaker を利用できます。SQL ステートメントを使用して、Redshift データを利用して Amazon SageMaker ML モデルを作成およびトレーニングしてから、それらのモデルを使用して予測を行うだけです。
使用
これで、ビジネス目標と、データパイプラインの構築を開始するために取り込んで分析するデータの量と速度を明確に理解できました。
利用可能な各サービスの利用方法や詳細を知るために、各サービスがどのように機能するかを詳しく学習するためのパスウェイをご用意しました。次のセクションは、基本的な利用から開始して、より高度な詳細の学習に至るための詳細なドキュメント、実践的なチュートリアル、およびリソースへのリンクを提供します。
高度な分析
-
インタラクティブ分析
-
ビッグデータ処理
-
データウェアハウジング
-
リアルタイム分析
-
運用分析
-
ダッシュボードと可視化
-
ビジュアルデータの準備
-
インタラクティブ分析
-
Amazon Athena の開始方法
Amazon Athena を利用してデータをクエリし、Amazon S3 に保存されているサンプルデータに基づいてテーブルを作成して、テーブルをクエリし、クエリの結果を確認する方法をご覧ください。
Amazon Athena で Apache Spark の利用を開始する
Amazon Athena コンソールの簡素化されたノートブックエクスペリエンスを使用して、Python または Athena ノートブック API を使用して Apache Spark アプリケーションを開発しましょう。
AWS re:Invent 2022 - What's new in Amazon Athena
データを処理するために Athena を利用する方法をご覧ください。データレイクや外部ソースなどにわたるすべてのデータに適用しましょう。
セッションを視聴する »Analyzing data in S3 using Amazon Athena
事前定義された形式のテキストファイルとして生成された Elastic Load Balancer からのログに対して Athena を利用する方法を詳しくご覧ください。テーブルの作成、Athena によって利用される形式でのデータのパーティショニング、Parquet への変換、クエリパフォーマンスの比較を実行する方法をご紹介します。
-
ビッグデータ処理
-
AWS EMR の開始方法
Spark を利用してサンプルクラスターを起動する方法と、Amazon S3 バケットに保存されているシンプルな PySpark スクリプトを実行する方法をご覧ください。
Amazon EMR on EKS の開始方法
仮想クラスターに Spark アプリケーションをデプロイして、EKS で Amazon EMR の利用を開始する方法をご紹介します。
EMR Serverless の利用を開始する
最新のオープンソースフレームワークを使用する分析アプリケーションのオペレーションを簡素化するサーバーレスランタイム環境を、EMR Serverless がどのように提供するかをご覧ください。What's new with Amazon EMR
Amazon EMR Serverless、Amazon EMR Studio など、最新の Amazon EMR 開発についてご覧ください。
-
データウェアハウジング
-
Amazon Redshift の開始方法
サーバーレスリソースの作成、Amazon Redshift Serverless への接続、サンプルデータのロード、データに対するクエリの実行についての Amazon Redshift Serverless の基本的なフローを理解しましょう。Modernize your data warehouse
Amazon Redshift の新機能を使用して、すべてのデータへのアクセスを可能にすることによってデータウェアハウスをモダナイズする方法を詳しくご覧ください。
Deploy a data warehouse on AWS
Amazon Redshift データウェアハウスを作成および設定し、サンプルデータをロードしてから SQL クライアントを使用して分析する方法をご覧ください。
Amazon Redshift Deep Dive Workshop
ユーザーが Redshift プラットフォームの利用を開始するのに役立つ一連の演習を詳しくご覧ください。
-
リアルタイム分析
-
Amazon Kinesis Data Analytics for Apache Flink の開始方法
Kinesis Data Analytics for Apache Flink と DataStream API の基本概念を理解しましょう。
ガイドを詳しく見る »
ストリーミング分析ワークショップ
ストリーミングデータをほぼリアルタイムで取り込み、分析および可視化するためのエンドツーエンドのストリーミングアーキテクチャを構築する方法をご覧ください。
Introduction to Amazon Kinesis Data Analytics for java applications
Amazon Kinesis Data Analytics で Apache Flink アプリケーションを利用してデータからより適時なインサイトを得る方法を詳しくご覧ください。
Clickstream Lab
ストリームストレージのために Amazon MSK を利用し、ストリーム処理のために Apache Flink エンジンを備えた Java アプリケーション用 Amazon KDA を利用する、クリックストリームのユースケースのためのエンドツーエンドラボ。
-
運用分析
-
Amazon OpenSearch Service の開始方法
Amazon OpenSearch Service を利用してテストドメインを作成および設定する方法をご覧ください。OpenSearch Service と OpenSearch Dashboards によるカスタマーサポートへの問い合わせを可視化する
次の状況のフルチュートリアルをご覧ください。ある企業が、カスタマーサポートの電話を一定数受信しており、それらを分析したいと考えています。各電話の用件は何ですか? 好ましい内容の電話は何件ありましたか? 好ましくない内容の電話は何件ありましたか? マネージャーはこれらの通話のトランスクリプトをどのように検索または確認できるでしょうか?
Amazon OpenSearch Serverless ワークショップの開始方法
AWS コンソールで Amazon OpenSearch Serverless の新しいドメインを設定する方法をご覧ください。使用可能なさまざまな種類の検索クエリを詳しく確認し、目を引くビジュアライゼーションをデザインして、割り当てられたユーザー権限に基づいてドメインとドキュメントを保護する方法を知ることができます。
Building a log analytics solution with Amazon OpenSearch Service
ログ分析ワークロードに合わせて OpenSearch クラスターのサイズを設定する方法をご覧ください。
-
ダッシュボードと可視化
-
Amazon QuickSight データ分析の開始方法
最初の分析を作成する方法をご覧ください。サンプルデータを利用して、シンプルな分析も、より高度な分析も作成できます。または、独自のデータに接続して分析を作成することもできます。
Visualizing with QuickSight
AWS を利用したビジネスインテリジェンス (BI) とデータビジュアライゼーションの技術的側面を知りましょう。アプリケーションやウェブサイトにダッシュボードを埋め込み、アクセスと許可を安全に管理する方法をご覧ください。
-
ビジュアルデータの準備
-
AWS Glue DataBrew の開始方法
最初の DataBrew プロジェクトを作成する方法をご覧ください。サンプルデータセットをロードして、そのデータセットに対して変換を実行し、それらの変換をキャプチャするレシピを構築して、変換されたデータを Amazon S3 に書き込むジョブを実行します。
Transform Data with AWS Glue DataBrew
視覚的なデータ準備ツール、AWS Glue DataBrew についてご覧ください。データアナリストやデータサイエンティストはこのツールを用いることで、データを簡単にクリーニングして正規化し、分析や機械学習の準備をすることができます。AWS Glue DataBrew を利用して ETL プロセスを構築する方法をご覧ください。
AWS Glue DataBrew Immersion Day
AWS Glue DataBrew を利用して、分析や機械学習のためにデータをクリーニングおよび正規化する方法を詳しくご覧ください。
データ管理
-
リアルタイムのデータ移動
-
データガバナンス
-
データレイクのオブジェクトストレージ
-
データカタログ
-
サードパーティーのデータ
-
リアルタイムのデータ移動
-
Amazon Kinesis Data Streams からストリーミング取り込みを開始する方法
Kinesis Data Streams から Amazon Redshift にデータを直接ストリーミングして、データへのアクセスにかかる時間を短縮し、ストレージコストを削減する方法を詳しくご覧ください。
Amazon Managed Streaming for Apache Kafka からのストリーミング取り込みを開始する方法
Amazon MSK から Amazon Redshift にデータを直接ストリーミングして、データへのアクセスにかかる時間を短縮し、ストレージコストを削減する方法をご覧ください。
Amazon Redshift を利用して Amazon Aurora ゼロ ETL 統合を開始する
Amazon Redshift との Amazon Aurora ゼロ ETL 統合を利用して、ほぼリアルタイムの運用上の分析を開始する方法をご覧ください。
AWS Glue Immersion day ワークショップ
複数のハンズオンラボで作業して、AWS Glue と、関連する AWS サービスを利用して現実の問題を解決する方法を示します。
Amazon Kinesis Data Firehose Immersion Day
わずかな設定ステップでストリーミングデータを Amazon OpenSearch および Amazon Redshift に簡単に取り込む方法をご覧ください。
Amazon Kinesis Video Streams ワークショップ
Amazon Kinesis Video Streams を利用して、カメラデバイスからの動画の取り込みと保存、ライブおよびオンデマンド再生、動画ファイルのダウンロードを行う方法をご覧ください。
-
データガバナンス
-
AWS Lake Formation を利用してデータレイクのガバナンスを一元化する
Amazon Redshift Spectrum を利用してデータレイクにクエリを実行しながら、AWS Lake Formation を利用してデータガバナンスとデータアクセス管理を一元化する方法を詳しくご覧ください。
Amazon DataZone の開始方法
Amazon DataZone ルートドメインを作成したり、データポータル URL を取得したりする方法、およびデータプロデューサーとデータコンシューマー向けの基本的な Amazon DataZone ワークフローの詳細をご覧ください。
-
データレイクのオブジェクトストレージ
-
AWS Lake Formation の開始方法
既存の AWS Glue データカタログオブジェクトとAmazon S3 内のデータロケーションを管理するために、Lake Formation を初めて設定する方法をご覧ください。
AWS Lake Formation Workshop
AWS Lake Formation を利用して、AWS 上でデータレイクを構築、保護、管理する方法を詳しくご覧ください。Central storage - Amazon S3 as the data lake storage platform
Amazon S3 が、事実上無制限のスケーラビリティと高い耐久性を備えていることを理由として、どのようにデータレイクの最適な基盤となっているかをご覧ください。
-
データカタログ
-
AWS Glue Data Catalog の開始方法
Amazon S3 バケットをデータソースとして利用する、最初の AWS Glue データカタログを作成する方法をご覧ください。 -
サードパーティーのデータ
-
AWS Data Exchange サブスクライバーとしての開始方法
AWS Data Exchange コンソールを利用して、AWS Data Exchange でデータ製品のサブスクライバーとなる詳細なプロセスを理解しましょう。
AWS Data Exchange プロバイダーとしての開始方法
AWS Data Exchange コンソールを利用して、AWS Data Exchange でデータ製品のプロバイダーとなる詳細なプロセスを理解しましょう。
AWS Data Exchange Workshop
AWS サービスをサードパーティーのデータと組み合わせて利用し、データ分析プロジェクトにインサイトをもたらす方法を理解して学ぶために利用できる、セルフサービスラボを詳しくご覧ください。
Amazon AppFlow Workshop
Amazon AppFlow について、また、人気の SaaS サービスと AWS の間でデータを簡単に転送する方法についてご覧ください。
ワークショップを開始する »
予測分析と ML
-
フレームワークとインターフェイス
-
プラットフォームサービス
-
直接的なデータ統合
-
フレームワークとインターフェイス
-
AWS Deep Learning AMI の開始方法
適切な DLAMI の選択や、ユースケースと予算に合ったインスタンスタイプの選択に関するヒント、およびカスタム設定について説明する追加情報を詳しくご覧ください。
ガイドを詳しく見る »
Deep Learning AMI のチュートリアル
Conda のソフトウェアとともに Deep Learning AMI を利用する方法を示す一連のチュートリアル。
チュートリアルを開始する »
AWS Deep Learning AMI を使用して深層学習を開始する
カスタム環境とワークフローを構築できるようにする、AWS Deep Learning AMI (Amazon マシンイメージ) についてご覧ください。
ブログ記事を読む » -
プラットフォームサービス
-
How Amazon SageMaker Works
機械学習の概要と Amazon SageMaker の仕組みを詳しくご覧ください。
Amazon SageMaker の開始方法
仮想クラスターに Spark アプリケーションをデプロイして、EKS で Amazon EMR の利用を開始する方法をご紹介します。
コードを書かずに機械学習の予測を生成する
Amazon SageMaker Canvas を利用して ML モデルを構築し、コードを一行も記述することなく正確な予測を生成する方法をご覧ください。
チュートリアルを開始する »
-
直接的なデータ統合
-
Machine Learning with Amazon Athena の使用
ML with Amazon Athena により、Amazon SageMaker を利用して機械学習 (ML) 推論を実行する SQL ステートメントの記述に Athena を利用することがどのように可能になるかを詳しくご覧ください。
Amazon QuickSight での機械学習を使用したインサイトの取得
Amazon QuickSight Enterprise Edition で ML および自然言語機能を利用することで、記述分析や診断分析を超えて、予測と意思決定がどのように可能になるのかをご覧ください。
Amazon Redshift ML の開始方法
Redshift クラスター内のデータを利用して、Amazon SageMaker でモデルをトレーニングする方法をご覧ください。
How to get started with Neptune ML
Neptune ML を簡単に設定し、グラフ内の頂点のプロパティを推測する方法をご紹介します。