Amazon Web Services ブログ

Cluster Insights のご紹介: Amazon OpenSearch Service クラスター向け統合モニタリングダッシュボード

本記事は 2025年11月21日 に公開された「Introducing Cluster Insights: Unified monitoring dashboard for Amazon OpenSearch Service clusters | AWS Big Data Blog」を翻訳したものです。

Amazon OpenSearch Service クラスターは、CloudWatch や Amazon OpenSearch Service コンソールを通じてアクセスできる豊富な運用メトリクスを提供し、効果的なパフォーマンスモニタリングとアラート作成をサポートします。しかし、クラスター内の回復力やパフォーマンスの課題を特定することは困難な場合があります。リソースを大量に消費するクエリを特定したり、パフォーマンス低下の傾向を把握したりするプロセスには時間がかかることがあります。

これらの課題に対処するため、私たちは Cluster Insights をリリースしました。これは、厳選されたインサイトと実行可能な緩和手順を提供する統合ダッシュボードです。このダッシュボードは、ノード、インデックス、シャードレベルの詳細なメトリクスを表示し、最高の回復力と可用性を維持するためのセキュリティと回復力のベストプラクティスの簡潔なサマリーを提供します。

このブログでは、主要な機能とメトリクスを含む Cluster Insights のセットアップと使用方法について説明します。最後まで読むと、Cluster Insights を使用して OpenSearch Service クラスター内のパフォーマンスと回復力の問題を認識し、対処する方法を理解できるようになります。

Cluster Insights の使用開始

Cluster Insights は、OpenSearch バージョン 2.17 以降を実行している OpenSearch Service ユーザーに追加料金なしで利用できます。Cluster Insights にアクセスするには、OpenSearch ドメインの管理者レベルの権限が必要です。Cluster Insights は OpenSearch UI からのみ利用できます。OpenSearch UI は、複数のデータソースのサポート、ダッシュボードエクスペリエンスのゼロダウンタイムアップグレード、効果的なチームコラボレーションのためのキュレーションされたワークスペースを提供します。まず、データソース(クラスター)を OpenSearch UI アプリケーションに関連付ける必要があります。詳細な手順はユーザーガイドに記載されています。OpenSearch UI コンソールのエクスペリエンスは、以下のスクリーンショットのようになります。

OpenSearch UI アプリケーションを使用して Cluster Insights にアクセスするには:

  1. Amazon OpenSearch Service コンソールで、OpenSearch UI (Dashboards) に移動し、Application URL を選択して OpenSearch UI アプリケーションにアクセスします。
  2. OpenSearch UI アプリケーションで、左下隅の設定アイコンを選択し、Data administration を選択します。
  3. Data administration overview ページ、または左側のナビゲーションの Manage data の下で、Cluster insights を選択します。

Cluster Insights の概要

Cluster insights – Overview は、接続されているすべての OpenSearch ドメインの健全性とインサイトを表示するランディングページとして機能します。5 つのセクションで構成されています:

  1. Current cluster status – クラスターの健全性ステータス(Green、Yellow、Red)をドーナツチャートで表示します。
  2. Insights trend – 過去 30 日間の問題パターンを追跡し、新たな問題の特定と解決の進捗状況の追跡に役立ちます。この傾向分析は、運用変更の影響を監視したり、繰り返し発生する問題をトラブルシューティングしたりする際に特に価値があります。
  3. Current open insights – クラスター全体で現在アクティブなインサイトの数と重大度の内訳を表示します。
  4. OpenSearch service clusters – 健全性ステータス、インサイト数、ノード、シャード、アクティブなクエリなどの重要な統計情報とともに、すべてのドメインを一覧表示します。
  5. Top insights by severity – 即座に対応が必要な問題を優先順位付けします。各インサイトには明確な説明と具体的な推奨事項が付属しており、複雑なモニタリングデータを実行可能なタスクに変換します。この優先順位付けされたビューにより、チームはシャードサイズの問題、ディスク容量の問題、パフォーマンスのボトルネックなど、重要な問題に最初に集中できます。

これらのセクションを組み合わせることで、OpenSearch Service インフラストラクチャの包括的なビューが提供され、単一のダッシュボードからクラスターの健全性を評価し、傾向を特定し、重要な問題に対処できます。

クラスターの健全性

Cluster insights – Overview ページの OpenSearch ドメインから特定のクラスターを選択すると、健全性ステータス、アクティブなインサイト、パフォーマンスメトリクスを含むクラスター固有の詳細が表示されます。概要セクションには、シャード、ノード、インデックスの数、合計ドキュメントサイズなどの重要なメトリクスとともにクラスターの健全性が表示されます。また、回復力とセキュリティの領域全体でドメインが従っている設定のベストプラクティスを確認することもできます。

下部のセクションには、現在の問題の詳細なビューを提示する実行可能なインサイトのテーブルが含まれています。このテーブルはランディングページのインサイトを反映していますが、選択したクラスターに影響を与える問題に特化しています。ディスク容量不足やシャード数の問題などの重大度の高い問題や、クラスターのパフォーマンスに影響を与える可能性のある中程度の重大度の懸念事項を確認できます。

各インサイトエントリはインタラクティブな要素として機能します。問題を選択すると、根本原因の特定と具体的な修復手順を含む詳細な分析が表示されます。テーブルには、生成タイムスタンプ、重大度レベル、推奨事項の数、現在のステータスなどの重要なメタデータが含まれているため、ユーザーは問題を効果的に優先順位付けして対処できます。

インサイトの詳細

すべてのインサイトは、詳細な分析と実行可能な推奨事項を提供します。Shard Count インサイトを例にとると、選択すると問題の包括的な内訳が表示されます。OpenSearch クラスターが JVM ヒープサイズに基づいてノードで許可されているシャード数を超過していることと、影響を受けるリソースの詳細なリストが表示されます。

詳細ビューには、影響を受ける各ノードとインデックスを正確に特定するリソースマップが含まれており、ノード ID、シャード数、問題の原因となっているインデックスなどの重要な情報が表示されます。

推奨事項は 2 つのレベルで整理されています。クラスターレベルの推奨事項は、クラスターのスケーリングやグローバルシャード割り当て設定の調整など、全体的なアーキテクチャの改善に対処します。インデックスレベルの推奨事項は、個々のインデックスに対する具体的なアクションを提供します。たとえば、アイドル状態のシャードを UltraWarm ストレージに移動する提案が表示される場合があります。これらは、過去 10 日間に検索またはインデックス作成操作がなく、少なくとも 5 日以上経過しているシャードであり、アクティブなシャード数を減らすためにウォームストレージに移動する理想的な候補です。このガイダンスはすべて Cluster Insights インターフェース内で直接利用でき、異なるツールやコンソール間を切り替える必要がありません。

Node、Index、Shard、Query ビュー

クラスターの健全性の横で、特定のクラスターの Node、Index、Shard、Query の詳細を確認できます。これらのビューは、リソース(CPU、メモリ、ディスク)使用率、検索およびインデックスのレイテンシーなどの重要なメトリクスを表示します。

Node ビュー

Node view タブは、クラスター全体の個々のノードのパフォーマンスの包括的なビューを提供します。このテーブルには、全体的なノードの健全性を示すヒートスコア、リソース使用率(CPU、メモリ、ディスク)、検索およびインデックスのレイテンシーとレート、各ノードで実行されている上位 N 個のシャードとクエリを表示するクイックリンクなど、各ノードの重要なメトリクスが表示されます。

このビューは、リソース使用率が高いノードやパフォーマンスが低下しているノードを特定するのに役立ちます。ノード ID をクリックして各ノードをさらに詳しく調べ、時間の経過に伴うリソース使用量の傾向を示す詳細な時間ベースのメトリクスを表示できます。さらに、上位 N 個のシャードリンクをクリックすると、選択したノードで実行されているシャードのみを表示するように自動的にフィルタリングされた Shard View に直接移動でき、パフォーマンスの問題の原因となっている特定のシャードを特定できます。

Index ビュー

Index view タブは、インデックスレベルで集計されたパフォーマンスメトリクスを表示します。各インデックスについて、ドキュメント数とストレージサイズ、検索のレイテンシーとレート、インデックスのレイテンシーとレート、インデックスに影響を与える上位 N 個のクエリへのアクセスを監視できます。この視点は、どのインデックスがクラスターの負荷を引き起こしているかを理解し、インデックス設定レベルでの最適化の機会を特定するのに役立ちます。

Shard ビュー

Shard view タブは、個々のシャードのメトリクスを表示することで、クラスターパフォーマンスの最も詳細なビューを提供します。各行には、シャード ID と割り当てられたノード、インデックスの関連付けとリソースプレッシャーメトリクス(CPU、メモリ)、シャードごとの検索およびインデックスのレイテンシーが表示されます。この詳細なビューにより、パフォーマンスの問題を引き起こしている特定のシャードを特定し、シャード配置の不均衡を識別し、ターゲットを絞った修復アクションを実行できます。

Query ビュー

Cluster insights ページの Query view は、すべてのクエリの実行統計、CPU とメモリの使用量、完了の進捗状況を分解するライブダッシュボードを提供します。これにより、最大のリソース消費を引き起こしているクエリ(上位 N 個のクエリ)を監視できます。ノード、インデックス、ユーザー別の分布を示す直感的なドーナツチャートとスコアボードにより、このインターフェースはオペレーターがパフォーマンスのボトルネックと重いワークロードを迅速に特定し、ターゲットを絞った最適化と自信を持ったスケーリングの決定をサポートします。

Query insights

Cluster insights に加えて、Query insights を使用して、Expand、Query、Fetch フェーズ全体で実行されている正確なクエリとレイテンシーを表示することもできます。これにより、検索開発者がクエリをさらに微調整するための貴重なインサイトが得られます。

まとめ

Cluster Insights は、OpenSearch Service クラスター管理を事後対応型のトラブルシューティングからプロアクティブな最適化へと変革します。ヒートスコアを備えた統合ダッシュボードと、安定性、回復力、セキュリティの柱全体にわたるベストプラクティスを提供することで、アカウントレベルで検索インフラストラクチャの可視性を提供します。

実行可能な推奨事項とステップバイステップの修復ガイダンスにより、あらゆる経験レベルのユーザーがシャードの不均衡やリソースのボトルネックなどの複雑な問題を効果的に解決できます。

Query insights との統合により、リソース消費パターンのリアルタイムの可視性が提供され、チームは詳細なプロファイリングとレイテンシー分析を通じてパフォーマンスに重要なクエリを特定して最適化できます。

詳細については、AWS OpenSearch Service ユーザーガイドを参照してください。


著者について

Siddhant GuptaSiddhant Gupta は、AWS のシニアプロダクトマネージャー(テクニカル)で、OpenSearch の AI イノベーションをリードしています。技術的な専門知識に関係なく、高度な AI 機能を顧客がアクセスしやすく実用的なものにすることに注力しています。彼の仕事は、最先端の AI テクノロジーをスケーラブルでユーザーフレンドリーなソリューションにシームレスに統合することに重点を置いています。

Varunsrivathsa VenkateshaVarunsrivathsa Venkatesha は、AWS のソフトウェア開発マネージャーで、Intelligent Domain Management チームをリードしています。Amazon OpenSearch Service のモニタリングおよびリカバリサービスに注力し、これらのサービスを活用して顧客にシームレスなドメイン管理エクスペリエンスを提供しています。

Gagandeep JunejaGagandeep Juneja は、AWS のシニアソフトウェア開発エンジニアで、OpenSearch に取り組んでいます。

Jinhwan HyonJinhwan Hyon は、韓国ソウルを拠点とする AWS のスペシャリストソリューションアーキテクトで、Amazon OpenSearch Service に注力しています。データと分析に関心があり、顧客が AI をデータ戦略に統合するのを支援することに情熱を持っています。特に生成 AI とインテリジェントエージェントに魅了されており、これらのテクノロジーが意思決定を革新し、複雑なビジネス課題を解決する方法を探求しています。

この記事は Kiro が翻訳を担当し、ソリューションアーキテクト の 榎本 貴之 がレビューしました。