发布于: Jan 6, 2023
Amazon EMR Serverless 是 Amazon EMR 中的无服务器选项,使用该功能,数据工程师可和数据科学家可以轻松运行开源大数据分析框架,而无需配置、管理和扩展集群或服务器。今天,我们很高兴地宣布,EMR Serverless 现在支持您为 Apache Spark 和 Hive 自定义映像。这意味着您可以将应用程序依赖关系或自定义代码打包到映像中,从而简化 Spark 和 Hive 工作负载的运行。
运行自定义映像简化了许多大数据分析使用案例。例如,数据工程师可以自定义默认的发布映像,以打包常见的依赖关系、自定义代码、特定的 Java 或 Python 版本,或工作负载所需的 SSL 证书。然后,他们可以在 Amazon Elastic Container Repository (ECR) 中存储这些自定义映像,使其能够轻松运行具有自定义依赖关系的 Spark 工作负载。安全工程师可以扫描这映像以符合组织标准。数据科学家可以定制运行时映像,以包括专有库或特定的 Python 包。此外,EMR Serverless 发布可以直接与企业的 Docker 构建、测试和部署流程集成,从而简化应用程序的持续集成和持续交付 (CI/CD)。
要详细了解如何为特定版本自定义 EMR 运行时以包括应用程序依赖关系,请访问我们的文档。