在一排伺服器末端,有人看著對面牆上投影的豔藍資料點

Intel® Advanced Matrix Extensions(Intel® AMX)是什麼?

利用搭載最新世代 Intel® Xeon® 可擴充處理器上的整合式加速器,擴充、簡化及加速 AI 功能,滿足深度學習工作負載的運算需求。1

重點精華

  • Intel® AMX 是 Intel® AI Engines 的一部分,適用於最新世代的 Intel® Xeon® 可擴充處理器。

  • Intel® AMX 可加速深度學習訓練與推斷工作負載,且大幅降低額外專用硬體的需求。

  • Intel® 開發者工具與支援資源,更方便您利用 Intel® AMX。

author-image

作者

Intel® Xeon® 可擴充處理器與 Intel® Advanced Matrix Extensions

深度學習工作,如依賴生成式 AI、大型語言模型(LLM)、電腦視覺,極其要求運算密集、高階的效能,甚至往往需要額外的專用硬體,才能確保成功部署 AI。這些需求相關的成本會急遽攀升,而另行新增硬體解決方案會產生不必要的多重複雜與相容性問題。

Intel® Xeon® 可擴充處理器的 Intel® AMX 可大幅降低專用硬體的需求、加速推斷與訓練,從而協助提升深度學習工作負載的效率和成本效益,且更方便訓練和部署。

Intel® Xeon® 可擴充處理器整合兩款 Intel® AI Engines,Intel® AMX 就是其中一款,有助您善用 CPU 大幅支援 AI 訓練和推斷工作負載,並有利於改善效率,降低推斷、訓練、部署及總持有成本。Intel® AMX 是每個 CPU 核心系統記憶體旁內建的加速器,通常比獨立加速器簡單易用,且短時間實現價值。

雖然組織有很多方式支援進階 AI 工作負載,但 Intel® Xeon® 可擴充處理器功能強大的整合式 AI 加速器作為基礎時,可以實現您的訓練和推斷目標,同時降低系統複雜性、部署及營運成本,換取更高的營業收入。

Intel® AMX 的機制

Intel® AMX 是 Intel® Xeon® 可擴充處理器核心專用的硬體區塊,有助加速且最佳化深度學習訓練與依賴矩陣的工作負載。

Intel® AMX 可讓 AI 工作負載在 CPU 上執行,不必將工作負載卸載至獨立加速器,大幅提升效能。2 該架構支援 BF16(訓練/推斷)和 int8(推斷)資料類型,並包含兩個主要元件:

  • 晶片塊:有八個二維暫存器,每個暫存器大小為 1 KB,可以儲存大量資料。
  • 晶片塊矩陣乘法(TMUL):TMUL 是晶片塊附屬的加速器引擎,用於執行 AI 的矩陣乘法運算。

這些元件搭配後,讓 Intel® AMX 可在每個核心儲存更多資料、運算更大的矩陣。而且 Intel® AMX 專為擴充設計。

Intel® AMX 有利實現更理想的商務成果

Intel® AMX 有助 Intel® Xeon® 可擴充處理器平衡推斷,提升深度學習訓練與推斷工作負載的效能,而 AI 應用程式的 CPU 是最為人所知的使用案例,因為有更多訓練功能。

很多 Intel 客戶利用 Intel® AMX 實現組織更理想的成果。相較於第 3 代 Intel® Xeon® 處理器,客戶可以利用第 5 代 Intel® Xeon® 處理器體驗提升高達 14 倍的訓練與推斷。3

Intel® AMX 主要的優勢:

  • 效能改善
    CPU 型加速可改善功耗和資源使用效率,以同樣的成本提供更佳的效能。
    例如,相較於搭載 FP32 的第 3 代 Intel® Xeon® 處理器,搭載 Intel® AMX® BF16 的第 5 代 Intel® Xeon® Platinum 8592+ 的即時語音識別推斷效能(RNN-T)最高提升 10.7 倍,效能功耗比提高 7.9 倍。4
  • 總持有成本(TCO)下降
    Intel® Xeon® 可擴充處理器採用 Intel® AMX 後大幅改善效率,所以有助降低成本、TCO,更推進永續發展目標。
    或許您已有 Intel® Xeon® 可擴充處理器的整合式加速器,但 Intel® AMX 讓您充分利用至今的投資與 CPU,免除額外獨立加速器相關的成本和麻煩。
    另外,採用 Intel® AMX 後,鑑於功耗和碳排放下降的優勢,Intel® Xeon® 可擴充處理器比其他可用選項,提供更實惠的伺服器架構。
    相較於 AMD Genoa 9654 伺服器,搭載 Intel® AMX 的第 5 代 Intel® Xeon® Platinum 處理器批次自然語言處理推斷(BERT-Large)效能最高提升 2.69 倍,每瓦效能提高 2.96 倍。5
  • 縮短開發時間
    為簡化開發深度學習應用程式的程序,我們與 TensorFlow、PyTorch 等開放原始碼社群展開密切的專案合作,完善 Intel® 硬體框架,並上傳最新的最佳化框架與功能,即時提供開發者使用。所以您可以利用 Intel® AMX 的效能優勢,添加幾行程式碼,即可縮短整體開發時間。
    而且我們提供免費的 Intel® 開發工具、程式庫與資源。

Intel® AMX 深度學習使用案例

Intel® AMX 可部署於各種深度學習使用案例,大幅提升效能,並帶來更多終端使用者和商業價值。

  • 推薦系統:使用 Intel® AMX 是 AI 推薦系統模型更實惠的解決方案,可以提升產品、內容與服務(包括電子商務、社群媒體、直播娛樂與個人化銀行)建議的回應能力。例如,內容供應商通常使用 Intel® AMX 加速提供鎖定目標族群的電影或書籍推薦與廣告,或者提供深度學習推薦系統,即時分析使用者行為信號,及時間地點等即時的情境。相較於搭載 FP32的第 3 代 Intel® Xeon® 處理器,第 5 代 Intel® Xeon® 處理器批次推薦系統推斷效能(DLRM)最高提升 8.7 倍,效能功耗比提升 6.2 倍。6
  • 自然語言處理(NLP):加快文字型使用案例支援並調整 NLP 應用程式,例如應用程式用於醫療保健與生命科學擷取病歷的見解,或處理大量醫療資料的,協助及早發現健康問題、改善醫療服務。在金融服務領域,Intel® AMX 可改善線上聊天機器人的回應能力,協助顧客更快獲得所需資訊,同時有限的人手可以轉往處理更複雜的要求。
    Intel® AMX 節省成本的優勢相似於推薦系統,但 Intel® AMX 是 NLP 更實惠的解決方案。例如,當用於部署 BERT-Large AI 自然語言模型時,相較於 AMD Genoa 9354,第 4 代 Intel® Xeon® 處理器上的 Intel® AMX 可節省高達 79% 的成本。7
  • 生成式 AI: 利用 Intel® AMX 加速生成式 AI 使用案例的深度學習訓練與推斷工作負載的效能,例如影像、影片、音訊、語言翻譯、資料擴增與摘要等內容生成。就效能評估而言,相較於處理 FP32 資料類型的 Intel® Xeon® Platinum 8380 處理器,Intel® Xeon® Platinum 8480+ 處理器採用 Intel® AMX 處理 BF16 檔案類型,在 Stable Diffusion 文字轉影像的產生時間縮短至不到五秒,而微調 Stable Diffusion 模型也微調至不到五分鐘。8
  • 電腦視覺:縮短擷取影片、影像生成見解或動作的時間,實現美好的客戶體驗,有助企業改善效率並降低營運成本。以零售商店為例,Intel® AMX 可大幅縮短顧客使用支援電腦視覺無障礙結帳的交易時間,並支援近即時監控貨架、追蹤庫存資料,然後在商品缺貨時立即通知員工。至於製造業可透過自動偵測缺陷功能,加快分析機器手臂的電腦視覺攝影機影片,節省時間與成本。

若要查看其他範例,瞭解 Intel® 客戶如何使用 Intel® AMX 締造更亮眼的商務成果,請前往客戶焦點資料庫

馬上開始使用 Intel® AMX

我們提供各種開發資源,協助您利用 Intel® Xeon® 可擴充處理器的整合式 Intel® AMX 加速器。

若要開始使用,請參閱以下指南中使用 Intel® AMX 提升效能的逐步說明:

如需詳細技術資訊、教學課程、程式碼範例、測試模組,請存取:

您可以存取開發者軟體工具目錄中,所有 Intel® Xeon® 可擴充處理器的調整指南。

為協助您簡化 AI 開發工作,我們提供 Intel® oneAPI 工具組、元件、最佳化資料庫,包括:

立即嘗試 Intel® AMX

除了參閱我們的參考資料,您可以使用 Intel® Developer Cloud,嘗試 Intel® 硬體、Intel® AMX 和其他整合式加速功能。

這個免費的線上平台提供學習、原型設計、測試、執行工作負載,甚至支援許多 Intel® 軟體開發工具組、工具與資料庫。

使用 Intel® AMX 擴充並增強 CPU 的 AI 功能

如果貴組織尋找解決方案滿足日益增長的運算需求,支援深度學習訓練和推斷工作負載,Intel® AMX 可以利用您可能已有的 Intel® 硬體提升效能,而不必承擔額外專用硬體的成本和麻煩;或者利用熱門開放原始碼框架的 Intel® 最佳化,存取免費的 Intel® 開發工具和資源,開發時間更是相對縮短。