常見問答集
AWS ParallelCluster
一般問題
問:為何應該使用 AWS ParallelCluster?
如果您想要在 AWS 上執行高效能運算 (HPC) 工作負載,則應使用 AWS ParallelCluster。您可以使用 AWS ParallelCluster 為 HPC 應用程式快速建置測試環境,也可以將其用作在雲端中建置 HPC 基礎設施的起點。AWS ParallelCluster 可將叢集管理的營運開銷降到最低,並簡化雲端的遷移路徑。
問:從哪些類型的應用程式可受益於使用 AWS ParallelCluster?
需要熟悉的雲端類叢集環境 (例如 MPI 應用程式和使用 NCCL 的機器學習應用程式) 的高效能運算應用程式最有可能受益於 AWS ParallelCluster。
問:AWS ParallelCluster 如何與其他 AWS 服務建立關聯/配合使用?
AWS ParallelCluster 與 AWS Batch (全受管 AWS 批次排程器) 整合。AWS Batch 可視為內部部署批次排程器的「雲端原生」替代品,並具備資源佈建的額外優勢。
AWS ParallelCluster 也與 Elastic Fabric Adapter (EFA) 整合,適用於需要 HPC 叢集節點之間低延遲聯網的應用程式。AWS ParallelCluster 也與 Amazon FSx for Lustre 整合,後者為高效能檔案系統,提供適用於運算工作負載的可擴展儲存,以及 Amazon Elastic File System。
問:AWS ParallelCluster 在建置叢集時會建立什麼?
AWS ParallelCluster 會佈建用於建置和控制的頭節點、一個運算執行個體叢集、共用檔案系統和批次排程器。您也可以使用自訂的安裝前和安裝後啟動程序動作來擴充和自訂使用案例。
問:哪些批次排程器可搭配 AWS ParallelCluster 使用?
AWS ParallelCluster 支援 AWS Batch (AWS 的全受管、雲端原生批次排程器),而且也與 SLURM 相容。
問:AWS ParallelCluster 支援哪些 Linux 發行版?
AWS ParallelCluster 目前相容 Amazon Linux 2、Ubuntu 18.04、CentOS 7 和 CentOS 8。AWS ParallelCluster 提供預設 AMI 清單 (每個區域每個相容 Linux 發行版) 供您使用。請注意,在 GovCloud 和中國分區中,Linux 發行版的可用性更有限。您可以參閱 AWS ParallelCluster 使用者指南,網址為:https://docs.thinkwithwp.com/parallelcluster/latest/ug/cluster-definition.html#base-os,進一步了解發行版相容性。
此外,叢集在 Amazon Linux 上執行時,您可以執行 AWS ParallelCluster 命令列工具,從任何能夠執行 Python 和下載 AWS ParallelCluster 套件的電腦建立和管理叢集。
問:是否可以將自己的 AMI 與 AWS ParallelCluster 搭配使用?
您可以透過三種方式自訂 AWS ParallelCluster AMI。您可以採取和修改現有 AWS ParallelCluster AMI,也可以採用現有自訂 AMI,並在其上套用 AWS ParallelCluster 所需的變更,或者在執行階段使用自己的自訂 AMI。如需詳細資訊,請瀏覽 https://aws-parallelcluster.readthedocs.io/en/latest/tutorials/02_ami_customization.html。
問:AWS ParallelCluster 是否支援 Windows?
AWS ParallelCluster 不支援建置 Windows 叢集。不過,您可以在 Windows 電腦上執行 AWS ParallelCluster 命令列工具。如需詳細資訊,請瀏覽 https://docs.thinkwithwp.com/parallelcluster/latest/ug/install-windows.html。
問:AWS ParallelCluster 是否支援預留執行個體和 Spot 執行個體?
支援。AWS ParallelCluster 支援隨需、預留和 Spot 執行個體。請注意,在 Spot 執行個體上完成的工作可能會中斷。我們建議您僅將 Spot 執行個體用於容錯和彈性的應用程式。
問:叢集的運算節點中是否可以有多個執行個體類型?
可以。每個佇列可以有多個佇列和多個執行個體。
問:使用 AWS ParallelCluster 可以建立多大的叢集?
您可以使用 AWS ParallelCluster 建立的叢集大小沒有內建限制。但是,您應該考慮一些限制,例如您的帳戶存在的執行個體限制。對於某些執行個體類型,預設限制可能小於預期的 HPC 叢集大小,而且在建立叢集之前需要請求提高限制。如需 EC2 限制的詳細資訊,請參閱 https://docs.thinkwithwp.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html。
問:AWS ParallelCluster 是否支援使用置放群組?
支援。雖然 AWS ParallelCluster 預設不使用置放群組,但您可以透過向 AWS ParallelCluster 提供現有的置放群組,或允許 AWS ParallelCluster 在啟動時建立新的置放群組來啟用它。您也可以設定整個叢集或僅設定運算節點以使用置放群組。如需更多資訊,請參閱 https://cfncluster.readthedocs.io/en/latest/configuration.html#placement-group。
問:AWS ParallelCluster 可以使用哪種共用儲存?
根據預設,AWS ParallelCluster 會自動設定連接到叢集主節點的 15 GB Elastic Block Storage (EBS) 的外部磁碟區,並透過網路檔案系統 (NFS) 匯出至叢集的運算節點。您可以在以下位置深入了解如何設定 EBS 儲存:https://docs.thinkwithwp.com/parallelcluster/latest/ug/ebs-section.html。您可以設定此共用儲存的磁碟區以符合您的需求。
AWS ParallelCluster 也與 Amazon Elastic File System (EFS)、RAID 和 Amazon FSx for Lustre 檔案系統相容。您也可以將具有 Amazon S3 物件儲存的 AWS ParallelCluster 設定為任務輸入來源或任務輸出目的地。如需使用 AWS ParallelCluster 設定所有這些儲存選項的詳細資訊,請瀏覽 https://docs.thinkwithwp.com/parallelcluster/latest/ug/configuration.html。
問:AWS ParallelCluster 的費用是多少?
使用 AWS ParallelCluster 無須支付額外費用,只需支付應用程式執行所需的 AWS 資源費用。
問:AWS ParallelCluster 在哪些區域開放使用?
AWS ParallelCluster 在以下區域開放使用:美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (加利佛尼亞北部)、美國西部 (奧勒岡)、歐洲 (斯德哥爾摩)、歐洲 (巴黎)、歐洲 (倫敦)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (米蘭)、非洲 (開普敦)、中東 (巴林)、亞太區域 (孟買)、亞太區域 (首爾)、亞太區域 (東京)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (香港)、AWS GovCloud (美國東部)、AWS GovCloud (美國西部)、中國 (北京) 和中國 (寧夏)。
問:如何支援 AWS ParallelCluster?
您負責操作叢集,包括 EC2 執行個體和批次排程器的必要維護、安全修補、使用者管理和 MPI 疑難排解。AWS ParallelCluster 支援僅限於與資源建置和 AWS Batch 整合相關的問題。AWS Batch 服務團隊支援 AWS Batch 排程器問題。有關其他非 AWS 排程器的問題,應直接聯絡他們自己的支援社群。如果您使用自訂 AMI 而非 AWS ParallelCluster 的預設 AMI,請注意,AWS ParallelCluster 不支援任何與使用自訂 AMI 相關的作業系統問題。
問:AWS ParallelCluster 如何發行?
AWS ParallelCluster 透過 Python 軟體套件索引 (PyPI) 發行,可以經由 pip 安裝。AWS ParallelCluster 的來源程式碼託管在 GitHub 的 Amazon Web Services 上,網址為:https://github.com/aws/aws-parallelcluster。
Elastic Fabric Adapter (EFA)
問:為什麼應該使用 EFA?
EFA 為緊密耦合的高效能運算 (HPC) 應用程式提供雲端的可擴展性、靈活性和彈性。緊密耦合的 HPC 應用程式可透過 EFA 存取比傳統 TCP 管道更低、更一致的延遲和更高的輸送量,以提高擴展能力。EFA 支援可在任何受支援 EC2 執行個體上隨需動態啟用,無須預先保留,讓您可以靈活地回應不斷變化的業務和工作負載優先級。
問:哪些類型的應用程式可受益於使用 EFA?
HPC 應用程式將運算工作負載分佈在執行個體叢集中以進行平行處理。HPC 應用程式的範例包括計算流體動力學 (CFD)、碰撞模擬和天氣模擬。HPC 應用程式通常使用 Message Passing Interface (MPI) 編寫,並在執行個體間的通訊實施嚴格的延遲和頻寬規定。使用 MPI 和其他支援 libfabric 通訊堆疊的 HPC 中介軟體的應用程式可從 EFA 中受益。
問:EFA 通訊如何運作?
EFA 裝置提供 Elastic Network Adapter (ENA) 裝置的所有功能,以及一個全新的作業系統略過硬體介面,允許使用者空間應用程式直接與硬件提供的可靠傳輸功能通訊。大多數應用程式會使用現有的中介軟體,例如 Message Passing Interface (MPI),來連接 EFA。AWS 與眾多中介軟體供應商合作,以確保支援 EFA 的 OS 旁路功能。請注意,使用 OS 旁路功能的通訊僅適用於 Virtual Private Cloud (VPC) 單一子網路內的執行個體。
問:哪些執行個體類型支援 EFA?
EFA 目前可用於 c5n.18xlarge、c5n.metal、i3en.24xlarge、i3en.metal、inf1.24xlarge、m5dn.24xlarge、m5n.24xlarge、r5dn.24xlarge、r5n.24xlarge、p3dn.24xlarge、p4d、m6i.32xlarge、m6i.metal、c6i.32xlarge、c6i.metal、r6i.32xlarge、r6i.metal、x2iezn.12xlarge、x2iezn.metal 和 hpc6a.48xlarge 執行個體。
問:EFA ENI 和 ENA ENI 有何不同?
ENA 彈性網路介面 (ENI) 提供支援 VPC 網路所需的傳統 IP 網路功能。EFA ENI 不僅提供 ENA ENI 的所有功能,還提供讓應用程式直接與 EFA ENI 通訊的硬體支援,無須透過擴充型程式設計介面使用執行個體核心 (OS 旁路通訊)。由於 EFA ENI 的進階功能,只能在啟動或停止執行個體時才能連接 EFA ENI。
問:Elastic Fabric Adapter (EFA) 和 Elastic Network Adapter (ENA) Express 兩者都使用 Scalable Reliable Diagram (SRD)。兩者有何不同?
EFA 和 ENA Express 都使用 AWS 建置的 SRD 通訊協定。EFA 專為緊密耦合的工作負載而建置,可直接由硬體提供與應用程式層的傳輸通訊。ENA Express 的設計目的是將 SRD 通訊協定用於使用 TCP 和 UDP 通訊協定的傳統網路應用程式。 ENA Express 也在可用區域內運作。
問:在執行個體上啟用 EFA 的先決條件是什麼?
您可以在啟動執行個體時啟用 EFA 支援,也可以將 EFA 支援新增至已停止的執行個體。EFA 裝置無法連接到執行中的執行個體。
NICE DCV
一般問題
問:為何應該使用 NICE DCV?
NICE DCV 是一種圖形最佳化的串流通訊協定,非常適合各種使用情境,從行動裝置上的串流生產力應用程式到 HPC 模擬視覺化。 在伺服器端,NICE DCV 支援 Windows 和 Linux。在用戶端,它支援 Windows、Linux 和 MacOS,並提供了 Web 用戶端,用於基於 HTML5 瀏覽器的跨裝置存取。
問:是否需要下載原生用戶端才能使用 NICE DCV?
不需要。NICE DCV 適用於任何 HTML5 Web 瀏覽器。不過,原生用戶端支援其他功能,例如多重監視器支援,Windows 原生用戶端也支援 USB 3D 滑鼠、儲存裝置和智慧卡。對於需要這些功能的工作流程,您可以在此處下載適用於 Windows、Linux 和 macOS 的 NICE DCV 原生用戶端。
問:哪些類型的應用程式可受益於使用 NICE DCV?
雖然 NICE DCV 的效能與應用程式無關,但是使用 NICE DCV 搭配需要低延遲的 3D 圖形密集型應用程式時,客戶會觀察到串流效能優勢。HPC 應用程式,例如地震和儲油氣層模擬、計算流體動力學 (CFD) 分析、3D 分子建模、VFX 合成,以及以遊戲引擎為基礎的 3D 渲染,都是 NICE DCV 效能優勢顯而易見的一些應用範例。
問:哪些執行個體類型支援 NICE DCV?
所有以 Amazon EC2 x86-64 架構為基礎的執行個體類型都支援 NICE DCV。 與 NVIDIA GRID 相容的 GPU 執行個體 (例如 G2、G3 和 G4) 搭配使用時,NICE DCV 會利用硬體編碼來改善效能並降低系統負載。
啟用 NICE DCV
問:在 Amazon EC2 上使用 NICE DCV 時,是否需要安裝 NICE DCV 授權伺服器?
不需要,您不需要授權伺服器即可在 EC2 執行個體上安裝和使用 NICE DCV 伺服器。但是,您需要設定執行個體以保證可存取 Amazon S3 儲存貯體。NICE DCV 伺服器會自動偵測它是否在 Amazon EC2 執行個體上執行,並定期連線到 Amazon S3 儲存貯體,以判斷是否有有效授權可用。有關在 Amazon EC2 上設定 NICE DCV 授權的進一步說明,請參閱此處的文件。
問:是否可以在執行中的執行個體上啟用 NICE DCV?
可以。NICE DCV 是可下載軟體,可以下載並安裝在正在執行的工作階段上。此處為 NICE DCV 下載頁面的連結。
問:NICE DCV 伺服器支援哪些 Windows 和 Linux 發行版?
此處為 NICE DCV 伺服器的作業系統支援記錄。
使用 NICE DCV
問:如何監控 NICE DCV 的即時效能?
NICE DCV 用戶端不在全螢幕模式時,其遠端工作階段頂部顯示工具欄功能區。按一下設定 >> 串流媒體模式。這會彈出一個視窗,讓使用者能在「最佳回應 (預設)」和「最佳品質」之間選擇。按一下彈出視窗底部的「顯示串流指標」,即可監控即時效能畫面播放速率、網路延遲和頻寬用量。
問:如何管理 NICE DCV 伺服器?
NICE DCV 伺服器會以作業系統服務的形式執行。您必須以管理員 (Windows) 或根 (Linux) 身分登入,才能啟動、停止或設定 NICE DCV 伺服器。如需詳細資訊,請參閱此處的文件。
問:NICE DCV 在哪個連接埠上通訊?
根據預設,NICE DCV 伺服器設定為透過連接埠 8443 通訊。您可以在安裝 NICE DCV 伺服器之後指定自訂 TCP 連接埠。連接埠必須大於 1024。
問:如何使用 NICE DCV 在 Linux 上啟用 GPU 共用功能?
GPU 共用功能可讓您在多個 NICE DCV 虛擬工作階段之間共用一個或多個實體 GPU。使用 GPU 共用可讓您使用單一 NICE DCV 伺服器,並託管共用伺服器實體 GPU 資源的多個虛擬工作階段。有關如何啟用 GPU 共用的更多詳細資訊,請參閱此處的文件。
問:NICE DCV 的 GPU 共用功能在 Windows 中是否可用?
不可用,NICE DCV GPU 共用功能只能在 Linux NICE DCV 伺服器上使用。
問:什麼是虛擬工作階段?如何管理?
僅在 Linux NICE DCV 伺服器上支援虛擬工作階段。NICE DCV 伺服器可以同時託管多個虛擬工作階段。虛擬工作階段由 NICE DCV 使用者建立和管理。NICE DCV 使用者只能管理他們已建立的工作階段。根使用者可以管理 NICE DCV 伺服器上目前正在執行的所有虛擬工作階段。如需管理虛擬工作階段的說明,請參閱此處的文件。
NICE EnginFrame
問:為什麼要使用 EnginFrame?
您之所以要使用 EnginFrame,是因為它能讓各大領域專家 (例如科學家、工程師和分析師) 輕鬆地將工作流程延伸到雲端,從而提升其生產力。EnginFrame 可減少管理員管理 AWS 資源的開銷,以及使用者的許可和對這些資源的存取。這些功能有助於節省時間、減少錯誤,並讓您的團隊更專注於執行創新研究和開發,而不必擔心基礎設施管理。
問:如何在內部部署環境中啟用 EnginFrame?
EnginFrame 版本 2021.0 或更高版本支援 EnginFrame AWS HPC 連接器。在您的環境中安裝 EnginFrame 後,管理員就能從管理員入口網站開始定義 AWS 叢集組態。
問:EnginFrame 管理員如何設定 AWS HPC 環境?
EnginFrame 管理員可以使用 AWS ParallelCluster 建立在 AWS 上執行的 HPC 叢集,以便隨時接受來自使用者的任務。若要在 EnginFrame 中執行此操作,系統管理員可以先建立、編輯或上傳 ParallelCluster 叢集組態。在叢集建立步驟中,管理員會為指定的 AWS 叢集建立唯一名稱,並指定是所有使用者、一組特定的使用者,和/或使用者群組都能存取該名稱,還是不允許任何使用者存取該名稱。建立 AWS 叢集後,它仍然可以接受提交的任務,直到管理員將其移除為止。根據預設,處於已建立狀態的 AWS 叢集只會使用最少的必要資源集,以便準備好接受提交的任務,並在提交任務時彈性縱向擴展。
問:使用者如何選擇在內部部署或在 AWS 上執行任務?
對於管理員已啟用 AWS 作為選項的 EnginFrame 服務,您可以使用下拉式功能表從內部部署和 AWS 的任何可用運算佇列中進行選取。管理員可以納入文字說明,以協助您選擇哪些佇列適合執行工作負載。
問:可以在 AWS 上的 EnginFrame 中使用哪些任務排程器? 我可以在內部部署和 AWS 上使用不同的任務排程器嗎?
EnginFrame 支援在 AWS 上建立的叢集使用 Slurm。您也可以選擇在內部部署使用與 AWS 不同的排程器 (例如,在 AWS 中使用 LSF 內部部署和 Slurm)。如果將 EnginFrame 服務設定為使用不同任務排程器在內部部署和 AWS 中提交任務,則管理員需要確保所有任務提交指令碼都支援透過每個排程器提交任務。
問:我可以在 AWS 中使用哪些作業系統? 我可以在內部部署和 AWS 上使用不同的作業系統嗎?
EnginFrame 支援 AWS 上的 Amazon Linux 2、CentOS 7、Ubuntu 18.04 和 Ubuntu 20.04 作業系統。您可以選擇在內部部署使用與在 AWS 上使用的不同的作業系統。但是,如果您打算使用 EnginFrame 在內部部署和 AWS 上執行相同的工作負載,建議您使用相同的作業系統來減少環境差異並簡化工作負載的可攜性。
問:EnginFrame 的費用是多少?
在 AWS 上使用 EnginFrame 不必額外付費。您需要支付用於存放和執行應用程式的任何 AWS 資源費用。
在內部部署使用 EnginFrame 時,系統會要求您提供授權檔案。若要取得評估授權或購買新的生產授權,請聯絡 NICE 授權經銷商或轉銷商,他們可以在您所在國家/地區提供銷售、安裝服務和支援。
AWS 上的研究和工程工作室
問:什麼是 AWS 上的研究和工程工作室?
AWS 上的研究和工程工作室 (RES) 是一個開放原始碼、易於使用的網頁入口網站,供管理員建立和管理安全的雲端研究和工程環境。科學家和工程師可以使用 RES 視覺化資料並執行互動應用程式,無需雲端專業知識。
問:為什麼應該使用 RES?
如果您執行工程和研究工作負載,並希望使用簡單的網頁入口網站在 AWS 上建立和管理虛擬桌面,應使用 RES。RES 可讓您設定虛擬桌面環境、允許研究人員和工程師建立並連線到 Windows 和 Linux 虛擬桌面、從單一介面監控、預算和管理虛擬桌面機群、透過 Web 入口網站管理您的 VDI 環境,並根據虛擬桌面要求安裝共用儲存,以便輕鬆存取資料。 如果研究人員和工程師需要與輸出和設計互動和討論,或在擴展工程工作負載之前模擬測試案例,RES 會提供強大的虛擬桌面執行操作。
問:如何管理共用儲存?
RES 管理員的責任是建立和維護文件系統,讓使用者取得所需的資料。RES 支援 Amazon EFS 和 Amazon FSx for NetApp ONTAP 檔案系統類型,管理員可以透過 RES 或內建現有檔案系統建立這些系統。如需管理和建立儲存的詳細資訊,請參閱文件。
問:如何存取產品文件?
存取 RES 文件。
問:RES 的費用為何?
您無需為 RES 支付額外費用,只需支付執行您應用程式的 AWS 資源費用。
問:RES 在哪些區域提供?
RES 在「區域」子集提供。您可以在文件中找到列表。
問:如何支援 RES?
您負責 EC2 執行個體和批次排程器的必要維護、安全性修補、使用者管理以及虛擬桌面執行個體上執行的軟體。RES 的支援僅限於與資源建置有關的問題。如果您使用自訂 AMI 而非 RES 的預設 AMI,請注意,RES 不支援任何與使用自訂 AMI 相關的作業系統問題。
問:RES 可支援哪些作業系統?
RES 目前與 Windows 和 Linux 作業系統相容。對 Linux 而言,RES 支援下列版本:Amazon Linux 2、CentOS 7、Red Hat Enterprise Linux 7、Red Hat Enterprise Linux 8 和 Red Hat Enterprise Linux 9。
問:如何取得額外的 Windows Remote Desktop Services 授權?
每個 Amazon EC2 執行個體隨附兩個遠端桌面服務 (又稱為終端服務) 授權以便於管理。此快速入門可用來協助您為系統管理員佈建這些授權。您也可以使用 AWS Systems Manager Session Manager,無須 RDP 也無須 RDP 授權即可遠端處理 EC2 執行個體。如果需要額外的遠端桌面服務授權,遠端桌面使用者 CAL 應向 Microsoft 或 Microsoft 授權經銷商購買。包含有效軟體保證的遠端桌面使用者 CAL 具有授權行動性權益,而且可在 AWS 預設 (共享) 租戶環境使用。如需了解在沒有軟體保證或授權行動性權益下帶入授權,請參閱常見問答集此部份。
問:RES 內的虛擬桌面是否支援 Spot 執行個體?
不,RES 內的虛擬桌面僅支援隨需執行個體。
問:RES 如何發行?
RES 是透過 GitHub 上的 Amazon Web Services 發行。 您可以在該處找到安裝選項。