[SEO 副标题]
本指南介绍如何使用 AWS 服务在 AWS 上托管发电互连仿真,例如生产成本建模。由于可再生能源具有可变性和不可预测性,因此要将其整合到电网中则需要进行大量分析。尽管有许多仿真工具都有助于电网规划,但它们通常在本地服务器上运行,这限制了这些工具在进行日益复杂的仿真时所能发挥的性能。在可扩展且可靠的 AWS 基础设施上托管仿真,可以减少复杂仿真运行时间,避免中断和重启,并满足动态需求,从而加快可再生能源转型。
请注意:[免责声明]
架构图

[架构图描述]
第 1 步
使用 AWS Amplify 构建简单的全栈 Web 应用程序,并通过 Amazon Cognito 进行身份验证。上传和下载存储在 Amazon Simple Storage Service(Amazon S3)中的数据。调用 AWS Lambda 函数来预处理用于发电互连仿真的输入数据,然后启动 AWS Step Functions。
第 2 步
使用 Step Functions 创建用于提交仿真任务、自动批处理任务和监控任务状态的工作流程。
第 3 步
在 AWS ParallelCluster 上配置所需的软件和依赖项,以使用任务调度程序运行发电互连仿真。管理员可使用 pcluster 命令行界面(CLI)和 ParallelCluster UI(ParallelCluster 3.5.0 版)与高性能计算(HPC)集群进行交互。NICE DCV 也包含在 ParallelCluster 中。
第 4 步
使用配有内置队列的任务调度程序,根据任务属性(如任务数量或优先级)和计算环境优化发电互连仿真任务。原生支持 AWS Batch 和 Slurm。替代方案是 Terascale Open-Source Resource 和 Queue Manager(TORQUE)以及 HTCondor。
第 5 步
调度程序将任务分配到计算实例集的多个节点上。Amazon EC2 Auto Scaling 配置为根据计划任务的数量动态扩展计算容量。建议计算节点使用计算优化型实例(例如,Amazon EC2 C7i 实例或 Amazon EC2 C7a 实例)。
第 6 步
将适用于 NetApp ONTAP 的 Amazon FSx 或 适用于 OpenZFS 的 Amazon FSx 用作高性能文件系统,来处理和存储由发电互连仿真软件生成的中间结果。Amazon S3 可用于存储输出文件。
第 7 步
使用 AWS DataSync 将选定的部分数据从 Amazon FSx 迁移到 Amazon S3 以实现输出可视化。
第 8 步
使用 EC2 Image Builder 和预定义的 AWS CloudFormation 模板来管理集群头节点和计算节点的映像,以实现持续集成和持续交付(CI/CD)。
第 9 步
使用 Amazon Simple Notification Service(Amazon SNS)和 Amazon CloudWatch 监控集群,并通知用户仿真任务状态的变化,例如开始和完成。
Well-Architected 支柱

当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
Amplify 可让您快速安全地为 HPC 集群设置和管理无服务器用户界面,而 Step Functions 可帮助您可视化和控制协调任务步骤的工作流程。CloudWatch 根据收集的指标监控集群的性能,帮助您深入了解运营情况。而且,借助 CloudFormation,您可以使用基础设施即代码来配置环境,限制人为错误并提高事件响应的一致性。所有这些服务都由 AWS 完全托管。
-
安全性
Cognito 为前端提供顺畅的客户身份和访问管理,支持实现用户池以及联合登录和访问。联合访问可使用现有的身份和权限,并提供与公司其他部门相同安全级别的统一用户体验。通过根据最低权限原则界定 AWS Identity and Access Management(IAM)策略的范围,您可以限制对资源的非授权访问。
-
可靠性
EC2 Auto Scaling 将 Amazon EC2 实例平均分配到多个可用区(AZ),以提高容错性和可用性。EC2 Auto Scaling 可以检测到实例运行不佳的状况,并终止实例,然后启动新实例以替换它。此外,如果一个可用区不可用,EC2 Auto Scaling 可以在另一个可用区启动实例以进行补偿。Amazon FSx 支持 HPC 应用程序实现高每秒进行读写操作的次数(IOPS)和大吞吐量,它还可部署到多个可用区,通过在多用区之间同步复制数据来提高耐用性。它还能在计划内的系统维护和计划外的服务中断期间,通过自动故障转移到备用可用区来提高可用性。这有助于保护数据免受实例故障和可用区中断的影响。最后,Amazon S3 为输入和输出数据提供持久可靠的存储。
-
性能效率
ParallelCluster 使用 EC2 Auto Scaling 组动态增减必要的实例以满足需求,从而确保资源大小适合工作负载。Amazon FSx 可处理海量数据集,吞吐量达每秒数百 GB,IOPS 达数百万,延迟时间达亚毫秒级。
-
成本优化
Step Functions 和 Lambda 通过事件驱动模式帮助最大限度地降低成本:未提交任务时不会产生任何成本。此外,ParallelCluster 使用 EC2 Auto Scaling 组,仅筛选出所需的实例运行,从而避免了资源空闲和浪费。ParallelCluster 使用 EC2 Auto Scaling 启动模板为已提交的任务启动实例,并且您可以根据性能基准和资源利用率选择最具成本效益的实例类型。 CloudWatch 监控使用情况并提供日志和见解,帮助您合理调整实例集实例的规模,控制工作负载运行开支。
-
可持续性
Amazon S3 Intelligent-Tiering 可监控访问模式并自动在各层之间移动对象,从而在成本、节能与访问效率三者间取得有效平衡。EC2 Auto Scaling 可帮助您动态扩展 HPC 集群的计算实例集,避免资源闲置,从而提供更高效、更可持续的解决方案。此外,Step Functions 和 Lambda 仅在处理任务提交时运行,不会在 HPC 集群空闲时间内运行,从而减少所需的资源,降低工作负载对环境的影响。
实施资源

提供了在 AWS 账户中进行实验和使用的详细指南。构建指南的每个阶段(包括部署、使用和清理)都将被检查,以便为部署做好准备。
示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。