发布于: Nov 29, 2022
适用于 Apache Spark 的 Amazon Redshift 集成帮助开发人员在 Amazon Redshift 数据上无缝构建和运行 Apache Spark 应用程序。如果您正在使用 AWS 分析和机器学习 (ML) 服务(比如 Amazon EMR、AWS Glue 和 Amazon Sagemaker),那么现在可以构建 Apache Spark 应用程序,从 Amazon Redshift 数据仓库中读写数据,而不会影响应用程序的性能或数据的事务一致性。 适用于 Apache Spark 的 Amazon Redshift 集成基于现有的开源连接器项目构建,并增强了它的性能和安全性,帮助客户获得速度快 10 倍的应用程序性能。非常感谢本项目的最初贡献者,他们与我们的合作促使这一切成为可能。在进一步的增强体验过程中,我们将继续为开源项目做出贡献。
适用于 Apache Spark 的 Amazon Redshift 集成最大限度地减少了设置 spark-redshift 开源连接器的繁琐过程(且通常是手动过程),并减少了执行分析和 ML 任务所需的准备时间。您只需要指定到数据仓库的连接,就可以在几秒内开始使用基于 Apache Spark 的应用程序中的 Amazon Redshift 数据。您可以对排序、聚合、限制、联接和标量函数等操作使用几种下推功能,以便只有相关数据从 Amazon Redshift 数据仓库移动到正在使用的 Spark 应用程序。这样,您便能改进应用程序性能。还可以使用 AWS Identity Access and Management (IAM) 凭证连接到 Amazon Redshift,从而使您的应用程序更加安全。
若要开始,请转到 Amazon EMR 6.9、EMR Serverless 或 AWS Glue 4.0,在 Apache Spark 作业或笔记本中使用数据框架或 Spark SQL 代码连接到 Amazon Redshift 数据仓库,并在几分钟内开始运行查询。要了解更多信息,请参阅 Amazon Redshift 或适用于 Apache Spark 的 Amazon Redshift 集成。