Cisco 使用 Apache DolphinScheduler 在 AWS 构建大数据系统实践

1. 背景介绍

Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统，旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 Data OPS 编排中的关系。解决数据研发 ETL 依赖错综复杂，无法监控任务健康状态的问题。DolphinScheduler 以 DAG（Directed Acyclic Graph，DAG）流式方式组装任务，可以及时监控任务的执行状态，支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。

在 Cisco 的数据团队构建数据业务时，选取并使用 Apache DolphinScheduler 进行搭建大数据调度平台已经有近三年时间。其中大部分的数据任务都需要提交部署到 AWS 平台上，在团队进行系统架构和开发期间经历了一系列的挑战。从最初的 2.0.3 版本开始至今，团队与社区一同成长。本文将分享 Cisco 数据团队如何基于 DolphinScheduler 3.1.1 版本进行二次开发，并与 AWS 云上的资源特性进行深度融合，增加了一些社区版本中未包含的新功能以实现业务需求的技术细节。

2. 整体架构说明

2.1 业务挑战与应对

调度平台支持了简易的 ETL 任务定义，方便业务人员快速构建任务；
需要分别支持 Apache Spark、Apache Flink 、ETL 任务提交到 EKS（Amazon Elastic Kubernetes Service）上运行；
需要解决跨多个 AWS 区域进行任务调度管理，支持多计算集群架构；
可以有效并安全的管理 AWS 相关资源的启、停和权限控制，并做到资源隔离；
兼容 AWS 服务密钥自动轮转策略，增强系统安全性。

2.2 整体部署架构

DolphinScheduler 的所有服务均部署在 Webex DC上，包括 API 、Alert 以及 Zookeeper、Master 和 worker 等组件；
支持提交 Spark、Flink 、ETL 任务到 EKS 运行；
支持一个调度服务负责多个 AWS 区域的计算任务调度管理，满足多国数据合规；
使用 Terraform 自动化 AWS 资源的配置和管理过程，简化资源分配和权限设定。

3. 技术实现细节

3.1 资源依赖和存储管理

Jar 包和配置文件等存储，选用 Amazon S3 Bucket 作为资源存储中心，存储用户的 Jar 包和可能的依赖配置文件。由于不同的业务通常在 AWS 上资源分布在不同存储桶，并且不同业务的都有数据隔离需求，这里需要支持多个 S3 Bucket 来满足不同集群的存储需求。因此，团队改进了 Dolphinscheduler 存储管理中对于 S3 的支持，使其兼容不同存储桶，并做了如下调整。

集群与 Bucket 的对应：每个集群将访问其对应的 S3 Bucket，以确保数据的局部性和合规性。
修改策略：我们需要调整我们的存储访问策略，以支持从多个 S3 Bucket 读写数据，不同的业务方要访问自己对应的 S3 bucket。

3.2 Docker 镜像管理

在改造之前，几乎所有的 Docker 镜像都存储在 Cisco 的一个 Docker 仓库中。

这些镜像为运行的各种服务和任务提供了必要的运行环境和依赖。为了更好的与 AWS 服务结合，团队决定将 Docker image 放到 Amazon ECR （Amazon Elastic Container Registry）上。并且可以在调度平台统一查看管理。因此，也在 UI 中集成了预览 ECR 镜像功能，如图示。

3.3 安全访问和权限管理

3.3.1 密钥管理工具迁移至 Secrets Manager

为了提高安全性，团队从 Cisco 的 Vault 服务迁移到了 AWS 的 Secrets Manager（ASM）：

ASM 提供了一个更加集成的解决方案来管理 AWS 资源的密码和密钥
使用 IAM Role 和 Service Account 的方式，以增强 Pod 的安全性
创建 IAM Role 和 Policy：首先创建一个 IAM Role，为其绑定必要的 Policy，确保只有必要的权限被授予
绑定 K8s Service Account：随后创建一个 Kubernetes Service Account，并将其与 IAM Role 关联
Pod 的权限集成：在运行 Pod 时，通过关联到 Service Account，Pod 可以直接通过 IAM Role 获取所需的 AWS 凭证，从而访问必要的 AWS 资源
对 Apache DolphinScheduler 进行了扩展，以支持 AWS Secrets Manager，使得用户可以在不同的集群类型中选择密钥