Amazon EMR の Apache Spark
EMR での Apache Spark を使用すべき理由
Amazon EMR は Apache Spark を実行するのに最適です。AWS マネジメントコンソール、AWS CLI、または Amazon EMR API 使用すると、Spark マネージドクラスターをすばやく簡単に作成できます。さらに、Amazon EMR File System (EMRFS) を使用した Amazon S3 との高速接続、Amazon EC2 スポットマーケットおよび AWS Glue データカタログとの統合、EMR Managed Scaling によるクラスターへのインスタンスの追加と削除など、Amazon EMR の他の機能も活用できます。 AWS Lake Formation はきめ細かなアクセスコントロールを可能にし、AWS Step Functions との統合はデータパイプラインのオーケストレーションに役立ちます。 EMR Studio (プレビュー) は、R、Python、Scala、PySpark で記述されたデータエンジニアリングやデータサイエンスのアプリケーションを、データサイエンティストとデータエンジニアが簡単に開発、視覚化、デバッグできるようにする統合開発環境 (IDE) です。EMR Studio は、完全管理型の Jupyter Notebook と、デバッグを簡素化する Spark UI や YARN Timeline Service などのツールを提供します。 EMR Notebooks を使用することで、Spark を使用したアプリケーションを簡単に実験および構築できます。また、Apache Zeppelin で Spark を使用して、インタラクティブかつ共同作業が可能なノートブックを作成してデータ探索を行うことができます。
特徴と利点
ユースケース
お客様事例
-
Yelp
Yelp の広告ターゲティングチームは、ある広告に対するユーザー操作の可能性を判定する予測モデルを作成しています。Amazon EMR での Apache Spark を使用して大量のデータを処理し、機械学習モデルを鍛えることで、Yelp では収入と広告のクリックスルー率を向上させました。
-
The Washington Post
Washington Post では、Amazon EMR で Apache Spark を使用して、ウェブサイトの推奨エンジンを強化するモデルを構築し、読者のエンゲージメントと満足度を高めることができました。Amazon EMR と Amazon S3 との高性能接続を活用することで、モデルはほぼリアルタイムで更新されます。
-
Krux
Krux では、顧客インサイトのデータ管理プラットフォームの一部として、多数の機械学習ワークロードと一般処理ワークロードを Apache Spark を使用して実行しています。Krux では Amazon EC2 スポットキャパシティーを利用した一時的な Amazon EMR クラスターを活用することでコストを節減し、EMRFS によって Amazon S3 を Apache Spark のデータレイヤーとして使用しています。
-
GumGum
画像内および画面内広告のプラットフォームである GumGum では、在庫予測、クリックストリームログの処理、Amazon S3 の非構造化データのアドホック分析に Amazon EMR の Spark を使用しています。Spark によりパフォーマンスが強化されることで、GumGum ではワークフローにかかる時間と費用を節約できています。
-
Hearst Corporation
多種多様なメディアや情報を扱う大企業である Hearst Corporation では、200 を超えるウェブプロパティのコンテンツを閲覧する顧客が存在します。Amazon EMR で Apache Spark Streaming を使用することで、Hearst の編集スタッフは、どの記事がよい成績を上げ、どのテーマがトレンドになっているのか、リアルタイムの動きを把握できています。
-
CrowdStrike
CrowdStrike は、侵害対策のエンドポイント保護を提供しています。Amazon EMR と Spark を使用することで、数百テラバイトものイベントデータを処理し、ホストでより高レベルな動作記述にまとめています。CrowdStrike では、そのデータからイベントデータについてまとめ、悪意のあるアクティビティの存在を判定することができています。