发布于: Dec 9, 2020
Amazon EMR on Amazon EKS 为 Amazon EMR 提供了一个新的部署选项,允许您在 Amazon Elastic Kubernetes Service (Amazon EKS) 上运行 Apache Spark。如果您已经使用 Amazon EMR,现在可在同一个 Amazon EKS 集群上运行基于 Amazon EMR 的应用程序和其他类型的应用程序,以提高资源利用率,并简化跨多个 AWS 可用区的基础设施管理。如果您已经在 Amazon EKS 上运行大数据框架,则现在可使用 Amazon EMR 来进行自动预置和管理,并将 Apache Spark 的运行速度提高 3 倍。通过此部署选项,您可以专注于运行分析工作负载,而 Amazon EMR on Amazon EKS 则负责构建、配置和管理容器。
首先,向 Amazon EMR 注册 EKS 集群。然后,定义您的作业,包括 EMR 版本、Spark 参数和应用程序依赖项。Amazon EMR on Amazon EKS 会将 Pod、容器和资源调度到您的 Amazon EKS 集群上。您可以将作业配置为在 Amazon EC2 实例上运行,如果您想要无服务器体验,也可以配置为在 Amazon Fargate 上运行。您可以使用 Amazon Managed Workflows for Apache Airflow 或 Apache Airflow 创建工作流程,并使用存储在 Amazon S3 或 Amazon CloudWatch 中的每个作业日志分析输出。
为了使用笔记本提交作业,EMR Studio 提供了一个集成开发环境 (IDE),使数据科学家和数据工程师能够轻松地开发、可视化和调试用 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。
Amazon EMR on EKS 定价根据从 Amazon EKS Pod 排程到 Amazon EKS Pod 终止期间所使用的 vCPU 和内存资源计算,四舍五入到最近一秒,最短为一分钟。定价基于任务或 Pod 所请求的 vCPU 和内存资源。
Amazon EMR on Amazon EKS 已在美国西部(俄勒冈)、美国东部(弗吉尼亚北部)和欧洲(爱尔兰)这些 AWS 区域推出。
有关更多信息,请访问 Amazon EMR on Amazon EKS 详情页面和 AWS 新闻博客文章。