隨著我們進入Exascale時代並加速邁向Zettascale,科技產業對於全球碳排放量的貢獻也隨之成長。預計到2030年,資料中心將會消耗全球總發電量的3%至7%1,而運算基礎設施所需電力將占據新能源使用量的首位。
今年英特爾承諾在2040年以前,達成全球營運範圍內的溫室氣體淨零排放,並持續開發更具永續性的解決方案。追隨永無止境運算需求的同時,還要創造一個可永續的未來,這是高效能運算(HPC)最大的挑戰之一。如果我們逐一解決HPC運算堆疊中的各個部分—晶片、軟體和系統,仍可達成此一願景。
這就是英特爾在德國漢堡ISC 2022主題演說的核心。
從晶片和異質運算架構邁開步伐
英特爾有項積極的HPC產品規劃,到了2024年將可提供多樣化的異質架構產品組合。這些架構讓英特爾能夠提升數個量級的效能表現,同時降低一般負載以及AI、加密和分析等新興工作負載的能耗需求。
搭載高頻寬記憶體(HBM)的Intel® Xeon®處理器,代號Sapphire Rapids HBM的產品即是一個很好的例子,闡述英特爾如何利用先進封裝技術和晶片創新,為HPC帶來實質性的效能、頻寬和省電等多方面改善。憑藉封裝當中最高達64GB的高頻寬HBM2E記憶體,以及整合進入CPU的加速器,英特爾能夠解放受限於記憶體頻寬的工作負載表現,同時在關鍵HPC使用案例中提供顯著的效能改善。第3代Intel® Xeon®可擴充處理器與即將推出的Sapphire Rapids HBM處理器相互比較時,於天氣研究、能源、製造和物理工作負載的效能提升2倍至3倍2。在本次主題演說當中,Ansys技術長Prith Banerjee 也展示在實際的Ansys Fluent和ParSeNet3工作負載之中,Sapphire Rapids HBM可提供高達2倍的效能提升3。
英特爾於提升HPC和AI超級運算工作負載數個量級效能的過程當中,運算密度是另外一個必要條件。我們首款旗艦型英特爾資料中心圖形處理器(GPU),代號Ponte Vecchio,已在複雜的金融服務應用和AI訓練與推論工作負載,提供超越競爭對手的表現。英特爾還展現高度逼真的OpenMC4模擬,採用Ponte Vecchio加速可達2倍4。
英特爾並不會就此打住,我們今日更宣布新款強大的資料中心GPU,代號Rialto Bridge。藉由推展Ponte Vecchio架構以及結合強化後的晶片塊(tile)和次世代製程節點技術,Rialto Bridge將可提供顯著增加的密度、效能和效率,同時保有軟體一致性。
展望未來,Falcon Shores是英特爾產品規劃的下一個重大架構創新,將x86 CPU和Xe GPU架構整合至單一插槽之中。這個架構預計在2024年帶來超過5倍的每瓦效能、5倍的運算密度、5倍的記憶體容量與頻寬等進步5。
成功軟體策略的原則:開放、選擇、信任
如果沒有軟體將其融入生活,晶片就只是砂粒般的存在。英特爾的軟體策略是促進整個堆疊的開放發展並提供工具、平台和軟體IP,協助開發者提升生產力,創造更多可擴展、效能更好、更具效率的程式碼,能夠汲取最新晶片創新的優勢,又沒有重新建構程式碼的負擔。oneAPI產業倡議提供HPC開發者跨架構的程式設計環境,因此程式碼能夠透明且可移植地,在CPU、GPU,以及其它專門的加速器上運作。
目前領先全球的研究和學術機構,有著超過20間的oneAPI卓越中心,均取得重大進展中。以Simon McIntosh-Smith及其英國布里斯托大學科學學系團隊作為例子,他們正在利用oneAPI和Khronos Group的SYCL抽象層進行跨架構程式設計,開發可在Exascale層級達成效能移植的最佳作法。他們的工作將確保科學程式碼,能夠在全球大規模的異質超級運算系統達到高效能。
相互結合:永續的異質運算系統
隨著越來越多資料中心和HPC工作負載朝向解構和異質運算的方向移動,我們將需要能夠協助更有效率地管理這些複雜且多樣化的運算環境。
英特爾今日推出Intel® XPU Manager,一款在本機或遠端監測與管理英特爾資料中心GPU的開源解決方案。這款方案專為簡化管理而設計,並透過執行全面性診斷,最大程度地提升可靠性和正常運作時間,改善使用率和執行韌體更新。
Distributed Asynchronous Object Storage(DAOS)檔案系統為移動和儲存資料等耗電任務,提供系統層級的最佳化。DAOS對於檔案系統的效能有著重大影響,同時改善整體存取時間和降低儲存所需容量,並減少資料中心所佔面積和提升能源效率。在與Lustre相關的I/O 500結果之中,DAOS可達成直寫式檔案系統的70倍效能6。
應對HPC永續性挑戰
英特爾很自豪能夠與全球各地志同道合的客戶和領先研究機構合作,實踐更為永續和開放的HPC。近期的例子包含英特爾與西班牙巴塞隆納超級運算中心共同合作,設立一座開創性的RISC-V Zettascale實驗室,英特爾也持續與英國劍橋大學和Dell合作,將目前的Exascale實驗室推展成新的劍橋Zettascale實驗室。這些努力都建立在英特爾為未來運算所擬定的計劃,建立一個強健的歐洲創新生態系。
沒有任何一家公司能夠獨立做到這點。整個生態系包含製造、晶片、互連、軟體和系統,都需要同步投身其中。藉由這些共同努力,我們可以將本世紀最大的HPC挑戰之一,轉變成本世紀的最大的機會之一,並替未來世代改變這個世界。
Jeff McVeigh是英特爾公司副總裁暨超級運算事業部總經理。
Notices and Disclaimers:
1 Andrae Hypotheses for primary energy use, electricity use and CO2 emissions of global computing and its share of the total between 2020 and 2030, WSEAS Trans Power Syst, 15 (2020)
2 As measured by the following:
CloverLeaf
-
Test by Intel as of 04/26/2022. 1-node, 2x Intel® Xeon® Platinum 8360Y CPU, 72 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04, Kernel 5.10, 0xd0002a0, ifort 2021.5, Intel MPI 2021.5.1, build knobs: -xCORE-AVX512 –qopt-zmm-usage=high
-
Test by Intel as of 04/19/22. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, ifort 2021.5, Intel MPI 2021.5.1, build knobs: -xCORE-AVX512 –qopt-zmm-usage=high
OpenFOAM
-
Test by Intel as of 01/26/2022. 1-node, 2x Intel® Xeon® Platinum 8380 CPU), 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, 0xd000270, Rocky Linux 8.5 , Linux version 4.18., OpenFOAM® v1912, Motorbike 28M @ 250 iterations; Build notes: Tools: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
-
Test by Intel as of 01/26/2022 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT Off, Turbo Off, Total Memory 128 GB (HBM2e at 3200 MHz), preproduction platform and BIOS, CentOS 8, Linux version 5.12, OpenFOAM® v1912, Motorbike 28M @ 250 iterations; Build notes: Tools: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
WRF
-
Test by Intel as of 05/03/2022. 1-node, 2x Intel® Xeon® 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, ucode revision=0xd000270, Rocky Linux 8.5, Linux version 4.18, WRF v4.2.2
-
Test by Intel as of 05/03/2022. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, WRF v4.2.2
YASK
-
Test by Intel as of 05/9/2022. 1-node, 2x Intel® Xeon® Platinum 8360Y CPU, 72 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Rocky linux 8.5, kernel 4.18.0, 0xd000270, Build knobs: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
-
Test by Intel as of 05/03/22. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, Build knobs: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
3 Ansys Fluent
-
Test by Intel as of 2/2022 1-node, 2x Intel ® Xeon ® Platinum 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, ucode revision=0xd000270, Rocky Linux 8.5 , Linux version 4.18, Ansys Fluent 2021 R2 Aircraft_wing_14m; Build notes: Commercial release using Intel 19.3 compiler and Intel MPI 2019u
-
Test by Intel as of 2/2022 1-node, 2x Pre-production Intel® Xeon® Scalable Processor code names Sapphire Rapids with HBM, >40 cores, HT Off, Turbo Off, Total Memory 128 GB (HBM2e at 3200 MHz), preproduction platform and BIOS, CentOS 8, Linux version 5.12, Ansys Fluent 2021 R2 Aircraft_wing_14m; Build notes: Commercial release using Intel 19.3 compiler and Intel MPI 2019u8
Ansys ParSeNet
-
Test by Intel as of 05/24/2022. 1-node, 2x Intel® Xeon® Platinum 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s [3200 MT/s]), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04.1 LTS, 5.10, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)
-
Test by Intel as of 04/18/2022. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, 112 cores, HT On, Turbo On, Total Memory 128GB (HBM2e 3200 MT/s), EGSDCRB1.86B.0077.D11.2203281354, CentOS Stream 8, 5.16, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)