AWS 推出全新資料中心元件,支援 AI 創新並進一步提升能源效率

AWS 最新發布一套彈性資料中心元件,以支援新一代生成式 AI 創新,不僅提供 12% 的額外運算能力,更提高可用性和效率

【拉斯維加斯訊,2024 年 12 月 13 日】亞馬遜(Amazon)旗下 Amazon Web Services(AWS)在 2024 年 re:Invent 全球大會上,宣布推出一系列資料中心新元件,旨在支援新一代人工智慧(AI)創新並滿足客戶不斷變化的需求。AWS 對電源、冷卻和硬體設計等進行的一系列創新,建構更加節能的資料中心,為客戶進一步創新奠定基礎。AWS 在全球新推出的資料中心都將具備這些新元件,而許多關鍵元件皆已部署於現有的資料中心。更多詳情請參考:https://www.youtube.com/watch?v=NUIrNGwUu14

AWS 基礎設施服務副總裁 Prasad Kalyanaraman 表示:「AWS 持續推動基礎設施創新,致力於為全球客戶建構效能卓越、可靠、安全且永續的雲端服務。藉由資料中心的新功能,包括能源效率的提升以及對新興工作負載的彈性支援,是我們在雲端運算領域的一大重要進展。同時,更令人興奮的是,這些功能均採用模組化設計,讓我們得以對現有基礎設施進行升級改造,實現液體冷卻並提高能源效率,這不僅為生成式 AI 應用提供強大的動能,也降低了碳足跡。」

AWS 擁有 18 年建構大規模資料中心、13 年為 AI 工作負載提供基於 GPU 的伺服器之豐富經驗。目前,AWS 的資料中心為全球數百萬活躍客戶提供服務,包括數十萬使用 AWS AI 和機器學習服務的客戶,以及全球數萬個使用 Amazon Bedrock 建構生成式 AI 應用程式的客戶。隨著生成式 AI 日益普及與客戶對 GPU 容量需求不斷增長,AWS 不斷調整和優化資料中心,以支援更高的功率密度需求。主要的升級包括:

1. 簡化電力和機械設計,提高可用性

AWS 致力於打造業界最可靠的基礎設施。簡化的電力和機械設計將更可靠,並易於維護,能確保客戶受益於高可用性,這是 AWS 自始至終為客戶提供的優勢。

AWS 最新的資料中心設計優化中,包括簡化的電力分配和機械系統,使基礎設施的可用性達 99.9999%。同時,簡化的系統將可能受到電力問題影響的機架數量減少 89%。

在 AWS 的資料中心內,電力供應需經過一系列轉換與分配過程,才能抵達 IT 設備。這個流程中每一步驟都伴隨著低效率、能源的消耗以及潛在的故障風險。在新的設計案例中,AWS 簡化了電力分配系統,進而將潛在故障點的數量減少了 20%。簡化的另一個例子還包括將備用電源更緊密地整合至機架附近,並減少排熱風扇的數量。AWS 運用天然的壓力差異來排出熱空氣,這提高了伺服器的可用電力。這些改進措施不僅顯著降低整體能源消耗,更最大限度地減少了故障風險。

2. 在冷卻、機架設計和控制系統進行創新

AWS 推出了一系列新功能及升級功能,致力於為客戶提供具有高效能、高可用性和能源效率的基礎設施。AWS 資料中心的創新包括:

  • 液體冷卻:新型的 AI 伺服器將受益於液體冷卻,更有效地應對高密度運算晶片的冷卻需求。AWS 開發了一項先進的機械冷卻解決方案,在新建及現有資料中心配置「液體到晶片」的冷卻系統。部分 AWS 技術運用不需要液體冷卻的網路和儲存基礎設施,因此更新後的冷卻系統將無縫整合氣體和液體冷卻功能,用於支援包括 AWS Trainium2 的強大 AI 晶片系列,NVIDIA GB200 NVL72 等機架級 AI 超級運算解決方案,以及 AWS 網路交換器和儲存伺服器。無論客戶運行傳統工作負載還是 AI 模型,這種彈性的多模式冷卻設計確保 AWS 能以最低的成本為客戶提供最佳效能和效率。這種獨特的液體冷卻機架設計是 AWS 與領先的晶片製造商合作開發的,旨在加快 AI 工作負載的上市時間。
  • 支援高密度 AI 工作負載:AWS 透過優化資料中心的機架布局,最大化電力使用效率。AWS 透過軟體實現了這一點,由資料和生成式 AI 驅動的軟體能夠精確預測伺服器的最佳部署方式。AWS 將減少浪費電力,包括閒置以及未充分運用的能源,進而更有效地善用可用的能源。

此設計旨在滿足 AI 工作負載對新一代硬體和高密度機架配置的需求,同時又保持足夠的彈性,適用於其他廣泛的硬體需求。AWS 基礎設施為客戶提供廣泛而深入的運算執行個體選擇,現已提供超過 750 種 Amazon Elastic Cloud Compute(Amazon EC2)執行個體,讓客戶可為幾乎所有工作負載選擇最合適的處理器、儲存、網路、作業系統以及購買模型。除了彈性的多模式冷卻解決方案外,AWS 在電力傳輸系統上也實現了工程突破,使 AWS 未來兩年內能夠將機架功率密度提升 6 倍,並有望在未來進一步提升 3 倍。這部分得益於新電源架的應用,新電源架能夠高效地在整個機架內分配電力,顯著降低了電力轉換過程中的耗損。

整體而言,這些創新措施讓 AWS 每個站點為客戶工作負載增加 12% 的運算能力。這項進步意味著在提供同等運算能力的情況下,所需的資料中心數量將會減少。

  • 升級的控制系統:新推出的由亞馬遜自行研發的控制系統已應用於 AWS 的電力與機械設備中,實現了監控、警報和營運流程的標準化。例如,運用 AWS 內部建構的遙測工具使用 AWS 的技術,能夠提供即時診斷和故障排除服務,這些服務確保客戶保持最佳運行狀態。此外,AWS 在提升控制系統冗餘度的同時,也簡化了系統複雜性。這些升級使得 AWS 基礎設施可用性設計達到 99.9999%。

3. 實現能源效率與永續雙提升:機械能耗降低 46%,混凝土含碳量減少 35%

多年來,AWS 在推動基礎設施能源效率與永續方面始終走在業界前列。據研究顯示,AWS 的基礎設施效率是企業自建基礎設施的 4.1 倍,透過在 AWS 上優化工作負載,相關的碳足跡能夠減少最高 99%。在 2023 年,AWS 已提前實現營運所需電力 100% 來自可再生能源的目標,比原訂的 2030 年提前了七年。

AWS 不斷評估資料中心的運行,透過不懈的創新提高基礎設施的能源效率。新元件在能源效率和永續發展的升級如下:

  • 更高效的冷卻系統,在高峰冷卻需求期間,與前一代設計相比預計機械能耗降低高達 46%,同時每兆瓦的用水量不變。設計改變包括全新的單側冷卻系統、減少冷卻設備數量以及引入液體冷卻功能。
  •  降低資料中心建築外殼混凝土的固有碳排放量,相較於業界平均水準最高可降低 35%。AWS 採用了規範的低碳鋼和低碳混凝土,並透過優化結構設計來減少鋼材的使用總量。
  • 備用發電機將採用可再生柴油,這是一種可生物降解且無毒的燃料,與傳統的化石柴油相比,其生命週期內的溫室氣體排放量可減少高達 90%。AWS 已開始在歐洲和美國的資料中心推廣使用可再生柴油作為備用發電機的燃料。

NVIDIA 超大規模與高效能運算事業部副總裁 Ian Buck 表示:「隨著 AI 需求不斷發展,資料中心也需同步加速演進。先進的液體冷卻解決方案能夠高效地冷卻 AI 基礎設施,同時顯著降低能耗。我們與 AWS 在液體冷卻機架設計上攜手合作,將協助客戶以卓越的效能和效率運行高強度的 AI 工作負載。」

Anthropic 運算部門傑出工程師 James Bradbury 表示:「Anthropic 致力於開發領先業界的基礎模型,而安全、高效能且節能的基礎設施是我們成功的關鍵。AWS 致力於建構先進的資料中心,這是我們選擇 AWS 作為主要雲端服務供應商和模型訓練合作夥伴的重要原因之一。AWS 的新設計顯著提升了基礎設施的安全性、可擴展性和效率,為 AI 模型的運行和創新提供了強有力的支援。」

AWS 的資料中心新元件將在 AWS 全球基礎設施進行部署,覆蓋全球 34 個區域、108 個可用區域,以及如 Amazon Local Zones 等其他基礎設施。預計在 2025 年初,包含完整元件的新型 AWS 資料中心將在美國開始建設。

欲了解更多關於 AWS 基礎設施的資訊,請至:https://thinkwithwp.com/about-aws/global-infrastructure/

 

關於 Amazon Web Services

自2006年來,Amazon Web Services一直在提供世界上服務最豐富、應用廣泛的雲端服務。AWS不斷擴展可支持幾乎任何雲端工作負載的服務,為客戶提供超過240種功能全面的雲端服務,包括運算、儲存、資料庫、聯網、分析、機器學習與人工智慧、物聯網、行動、安全、混合雲、媒體,以及應用開發、部署和管理等方面,遍及33個地理區域內的105個可用區域(Availability Zones),並已公佈計畫在馬來西亞、墨西哥、紐西蘭、沙烏地阿拉伯和泰國等建立6個AWS地理區域、18個可用區域。全球超過百萬客戶信任AWS,包含發展迅速的新創公司、大型企業和政府機構。AWS協助客戶強化自身基礎設施,提高營運上的彈性與應變能力,同時降低成本。欲瞭解更多AWS的相關資訊,請至: thinkwithwp.com
 免費註冊 AWS 帳號

新戶註冊即享 AWS 免費方案,可探索超過 100 種 AWS 的產品與服務,還能加碼領取獨家贈品!

 與我們聯絡

若欲尋求技術、帳單帳戶、登入存取支援,或希望與 AWS 的雲端業務聯絡,都竭誠歡迎您與我們聯繫!

 探索台灣資源中心

集結研討會精采回顧雲端主題白皮書開始上雲系列等免費資源,進一步豐富您的雲端之旅。