實驗室裡的一組科學研究人員在桌上型電腦上工作,檢查置於顯微鏡下的內容。

在 HPC 環境中擴充 AI 工作負載

探索如何在 HPC 環境中部署及擴充動態的 AI 工作負載,釋放新穎的見解、加速成果,並創造新的機會。

重點精華

  • 大型資料集、更快的價值實現時間,以及對更深入之見解的需求,正在推動對 AI 加速 HPC 的需求。

  • HPC 中的 AI 需要將記憶體頻寬與運算最大化的技術,才能滿足資料密集型工作負載的需求。

  • Intel® 高效能硬體與開放原始碼軟體解決方案旨在加速用於科學探索的 HPC。

author-image

作者

進入 AI 加速的 HPC 新時代

多年來,終端使用者、系統建置商、解決方案供應商與開發者都利用了HPC 的力量,解決世界上最棘手也最複雜的問題。然而,資料的持續成長、對更快實現價值的需求、對科學探索更深入的見解,以及時間和成本的額外限制,正將目前的系統推向極限。

同時,AI 演算法日益複雜,可以處理比前幾年更大的資料集,因此非常適合因應有增無減的科學工作負載。組織一旦結合 AI 與 HPC 的力量,就能縮短獲得深入解析的時間,同時達到或超過相同的準確性水準,最終得以因應世界上一些最複雜而緊迫的難題。

例如,伊利諾州阿貢國家實驗室的阿貢領導運算設施(ALCF)是 Aurora 百萬兆級 HPC 系統的未來所在地,正透過 HPC、高效能資料分析和 AI 的融合,協助推動科學研究。ALCF 的最新專案將使用 AI 來模擬核融合反應器的條件;發展非侵入性、針對患者的流體模型,瞭解不同人類疾病的進展和定位;並且更加瞭解核融合反應器中的多物理場。

探索我們的客戶成功案例集錦,瞭解其他組織和研究機構如何利用 AI 加速的 HPC,推動準確且具影響力的科學創新技術。

瞭解 HPC 中的 AI 挑戰

開始執行自己的 AI 加速 HPC 首創計劃時,瞭解可能面臨的常見挑戰非常重要。

 

  • 對於 AI 與 HPC 配置,傳統上需要在 CPU 架構內的 AI 和 HPC 需求之間權衡取捨。AI 繁重的工作負載通常會用核心數量來換取速度,而 HPC 工作負載通常偏好較高的運算效能、較高的核心數量和較多的核心對核心頻寬。
  • 愈來愈多的資料密集型工作負載(例如建模、模擬和 AI)會造成效能瓶頸,需要採用高頻寬記憶體解決方案來解鎖及加速這些工作負載。
  • HPC 中的 AI 高度複雜性是採用過程中遇到的主要阻力。AI 與 HPC 的技能組合非常專精,很難找到精通這兩個領域的人才。然而,如果沒有這種人才,AI 加速的 HPC 首創計劃可能無法發展。

 

為了協助客戶克服這些障礙,我們與 HPC 社群就 AI 使用問題密切合作,利用我們領先的 HPC 技術,分享專業知識與想法,並提供創新的解決方案。

建立您的 AI 加速 HPC 部署計畫

利用 AI 加速 HPC 專案的關鍵步驟是建立全方位的部署計畫,滿足貴組織的需求與需要,確保您擁有合適的技術來研究和探索。

您希望在 HPC 環境中增添強大的 AI 功能時,請提出以下問題,以便做出更明智的技術決策:

 

  • 您的輸出需要滿足什麼時間與準確度要求?
  • 您應該瞭解並避免哪些類型的演算法偏差?
  • 為了達到您的敏感度或特定要求,可以接受哪些權衡取捨?
  • 您的模型選擇、資料集和輸出是否會在大小和方向上有所改變?
  • 專案的程式碼變更會在何處以及如何發生?
  • 您實現程式碼變更的最佳方式是什麼?
  • 不同的使用案例需要大量重寫程式碼嗎?
  • 會執行哪些類型以及多少的工作負載?需要多常執行一次工作負載?是否會持續執行?

 

這些問題的解答可以為您與技術合作夥伴在探索系統設計選項時提供堅實的需求基礎。

選擇實現 AI 加速的 HPC 探索技術

在 HPC 中實現 AI 承諾的關鍵在於選擇合適的搭配技術,讓記憶體頻寬與運算最大化,滿足您動態工作負載設定檔的需求。

Intel 提供一套全方位的 HPCAI 技術,建置於開放式標準型跨架構的框架上,簡化部署,並提供滿足獨特工作負載需求所需的靈活功率與效能。此外,我們強大的開放原始碼軟體工具有助於加速程式碼開發,因為開發者只需編寫一次程式碼,即可在資料中心和雲端的任何系統上部署。

挑選具有高效能與效率的硬體

若要開始建置您獨特的 AI 加速 HPC 技術組合,我們建議從強大的硬體基礎開始,例如搭載 Intel® Xeon® 可擴充處理器。這些 CPU 配備適用於 AI 與 HPC 的整合式 Intel® Accelerator Engines,包括 Intel® Advanced Matrix Extensions(Intel® AMX)Intel® Advanced Vector Extensions 512(Intel® AVX-512),提供卓越的效能,支援要求嚴苛的 HPC 與 AI 工作負載。

如果您的工作涉及高度複雜的工作負載,重點是大規模訓練與推斷,您可能需要考慮提供更高等級輸送量、更專業化的硬體。

 

  • Intel® Gaudi® AI 加速器提供高效、可擴充的運算,讓資料科學家和機器學習工程師只需幾行程式碼,就可以加速訓練,並建置新的模型或移轉現有模型。Intel® Gaudi® AI 加速器也提供令人驚豔的電源效率,協助降低成本並提升永續發展。
  • Intel® Xeon® Max 系列 CPU 提供您未來 AI-HPC 功能所需的突破性效能,同時消除記憶體受限工作負載的瓶頸。Intel® Xeon® Max 系列 CPU 是首款也是唯一一款配備高頻寬記憶體的增強 x86 處理器,在實際 HPC 和 AI 工作負載上比競爭對手提供高達 4.8 倍的效能。1為了最大限度地發揮 Intel® Max 系列 CPU 的影響力,並承擔最棘手的工作負載,Intel® Data Center GPU Max Series 可以整合為獨立 GPU。它將超過 1000 億個電晶體整合在單一封裝中,並包含 Intel® Xe Link 高速、連貫、整合性結構,讓您靈活執行任何外型規格,實現縱向及橫向擴展。

 

全球各地的組織目前正在使用這些 Intel® 技術來推動工作。例如,德州先進運算中心(TACC)使用 Intel® Xeon® Max 系列 CPU、Intel® Data Center GPU Max Series,以及 Intel® Xeon® 可擴充處理器,支援美國各地的學術研究。阿根廷的 Servicio Meteorológico Nacional(SMN)是拉丁美洲最強大的學術研究超級電腦所在地,搭載 Intel® Max 系列 CPU 與 GPU。

利用強大的軟體工具,加速您的 HPC 與 AI 專案

隨著 AI 與 HPC 需求的成長,開發者在想方設法建立快速 HPC app,輕鬆在各架構之間擴充方面,面臨了多項挑戰。將軟體轉換為 HPC 叢集上運作並高效程式化高效能平行運算時,可能需要開發者投入大量時間。同時,開發者需要加速跨架構的專門工作負載,同時確保他們的程式碼能與愈多硬體類型和運算模型配合愈好,這也是一項耗時且成本高昂的工作。

為了協助開發者克服這些難題,Intel 採用開放的方法對待 HPC 軟體與 HPC 最佳化,提供適用於異質網路的開放語言 Intel® oneAPI 工具組。這樣一來,開發者就能更快、更輕鬆地建置高效能平行運算‒最佳化的跨架構應用程式。

Intel® oneAPI Base ToolkitIntel® oneAPI HPC Toolkit 讓開發者更輕鬆、更快地在多種架構上建置、分析、最佳化、以及擴充 HPC 應用程式。對於使用 AI 與分析工作負載的開發者、資料科學家和研究人員,Intel 提供了 Intel® oneAPI AI Analytics Toolkit,配備人們熟悉的 Python 工具與 AI 架構,加速 AI 管道、將效能發揮到極致,並為更高效的開發提供協同工作能力。此外,HPC 與 AI 工具組均使用 oneAPI 程式庫建置,實現低階運算最佳化。利用 oneAPI 建置 HPC 應用程式,開發者可以免於侷限於專有程式碼,以便最大限度地探索並發現新機會。

透過 Intel 加速高效能運算與 AI 工作負載

您接下來在 HPC 中實現 AI 的步驟中,我們領先的技術、龐大的夥伴生態系統,以及深入的社群連線可以協助您簡化並加速旅程。若要進一步瞭解 Intel 能為貴組織提供什麼並開始使用,請與 Intel® 代表或任何 Intel® AIHPC 技術夥伴聯絡。