投稿日: Nov 29, 2022
Amazon EMR では、Amazon Redshift の Apache Spark との統合を発表します。Amazon Redshift クラスターからデータを消費して書き込むことができる Spark アプリケーションをデータエンジニアが構築および実行するのに、この統合が役立ちます。Amazon EMR 6.9 以降で、EMR - EC2、EKS、サーバーレスのすべての 3 つのデプロイモデルにわたってこの統合を利用できます。
この統合を使用すると、ETL ワークフローの一部として Redshift テーブルに直接書き込むアプリケーションを構築したり、Redshift のデータを別のソースのデータと結合したりできます。デベロッパーは Redshift テーブルからのデータを Spark データフレームにロードしたり、Redshift テーブルにデータを書き込んだりできます。デベロッパーは Redshift に接続するためのオープンソースコネクターのダウンロードについて心配する必要はありません。
Amazon Redshift の Apache Spark との統合により、Redshift データにアクセスする Amazon EMR のアプリケーションは、既存の Redshift-Spark コネクターと比較して最大 10 倍速く実行できます。結合、集計、並べ替え、スカラー関数などのリレーショナル操作を Spark から Redshift にプッシュダウンし、クエリパフォーマンスを向上させます。IAM ベースのロールをサポートしてシングルサインオン機能を有効にし、AWS Secrets Manager と統合してキーを安全に管理します。
Amazon Redshift の Apache Spark との統合は、Amazon EMR、Amazon EMR on EKS、Amazon サーバーレスが利用可能なすべてのリージョンで利用できます。使用を開始するには、Amazon EMR、Amazon EMR on EKS、Amazon EMR Serverless のドキュメントをご覧ください。