投稿日: May 6, 2024
Amazon EMR Serverless は Amazon EMR のサーバーレスオプションで、クラスターやサーバーの設定、管理、スケーリングを行う必要がありません。そのためデータエンジニアやデータサイエンティストは、オープンソースのビッグデータ分析フレームワークを簡単に実行できます。本日、Amazon Managed Service for Prometheus による Apache Spark ジョブの詳細なパフォーマンスモニタリングを発表します。これにより、ジョブ固有のエンジンメトリクスと、Spark イベントのタイムライン、ステージ、タスク、およびエグゼキューターに関する情報を使用して、ジョブを分析、モニタリング、最適化できるようになります。
Apache Spark は、JVM ヒープメモリ、GC、シャッフル情報といった、ジョブのドライバーとエグゼキューターの詳細なパフォーマンスメトリクスを提供します。これらのメトリクスは、パフォーマンスのトラブルシューティングとワークロードの特性評価に使用できます。Amazon Managed Service for Prometheus は、安全性が高い、サーバーレスで、フルマネージドのモニタリングおよびアラートサービスです。EMR Serverless と Amazon Managed Service for Prometheus の統合により、複数のアプリケーション/ジョブに関するこれらのパフォーマンスメトリクスのモニタリングを単一のビューで行えるようになりました。その結果、一元化されたチームがこれらのメトリクスをモニタリングして、パフォーマンスのボトルネックや過去の傾向などを特定することが容易になります。
この機能は、EMR リリースバージョン 7.1.0 以降において、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン)、欧州 (ストックホルム、パリ、フランクフルト、アイルランド、ロンドン)、南米 (サンパウロ)、アジアパシフィック (東京、ソウル、シンガポール、ムンバイ、シドニー) の AWS リージョンで一般提供されています。使用を開始するには、「Amazon EMR Serverless ユーザーガイド」の Amazon Managed Service for Prometheus で Spark メトリクスをモニタリングするを参照してください。