RIKEN 加速醫學與藥物研究

RIKEN 利用 Habana® Gaudi® AI 處理器,讓醫療保健與生命科學的深度學習速度更快,效率更高。

概覽:

  • RIKEN 是日本最大的研究組織,機構與中心遍佈日本各地。

  • 資料科學家 Kei Taneishi 先生,在搭載第 3 代 Intel® Xeon® 可擴充處理器的 Amazon EC2 DL1 執行個體使用 Habana® Gaudi® AI 處理器,研究兩個領域的深度學習訓練,結果他發現,相較於搭載最新一代 GPU 的 EC2 執行個體,這兩個領域的訓練結果速度加快了。

Transformer 學習模型日益成長,高運算能力的要求隨之提高

Taneishi 利用各種醫療影像展開深度學習(DL)架構疾病分析的研究,包括胸部 X 光、影響分子目標之小分子的虛擬篩選,以及蛋白質的結構與功能變化。這些領域的 AI 技術研究需要大規模運算平台,因此 AI 加速器成了重中之重。

Taneishi 表示:「Transformer 於 2017 年問世,加上注意力機制是公認的深度學習基本要素,過去採用卷積和循環神經網路架構的模型持續改寫,甚至是自然語言處理以外的領域也不例外。」「因此,運算架構大幅增加,對於進階 DL 運算效能的需求也隨之提高。」

Kei Taneishi 先生,資料科學家,National Research and Development Agency RIKEN Photonics Research Center。

Kei Taneishi 先生,資料科學家,National Research and Development Agency RIKEN Photonics Research Center。

RIKEN 託管的 Hokusai Sailing Ship (HSS) 是它的其中一個大規模共享運算平台,而且 HSS 並未使用 AI 加速器,主要是針對資料科學最佳化。反之,該機構建立的異質運算環境結合內部部署與雲架基礎架構,由四家主要廠商的雲端技術搭配 Center for Computational Science 的通用應用程式超級電腦 Fugaku,以及 RIKEN Center for Advanced Intelligence Project 的 AI 開發電腦系統 RAIDEN 一起執行。

CP 值優異,模型移轉更輕鬆

在該機構的雲端技術運算資源中,Taneishi 對搭載 Habana® Gaudi® AI 處理器的 Amazon EC2 DL1 執行個體特別感興趣。這些執行個體採用八個 Habana® Gaudi® AI 處理器、有 96 個 vCPU 的第 3 代 Intel® Xeon® 可擴充處理器、768GB 記憶體、400 Gbps 頻寬網路,以及 4 TB 本機儲存空間。Habana Gaudi AI 處理器擁有八顆 Tensor Processing Core (TPC)、32 GB 的高頻寬記憶體,以及十個整合式 100 GbE 基於融合型乙太網路的 RDMA(RoCE)連接埠。DL1 執行個體上的八部 Gaudi 裝置透過這些 RoCE 連接埠,以全體對全體的方式連接,擴充效率極佳。相較於最新一代 GPU 技術的 EC2 執行個體,AWS EC2 DL1 執行個體在訓練深度學習模型方面的 CP 值提升高達 40%。1

Taneishi 說明:「Habana® Gaudi® AI 處理器可在硬體支援 tensor 運算和矩陣乘法,以最佳方式匯集深度學習運算圖,提供強大的效能。」

這款處理器在 2019 年推出時,Transformer 早已是公認的標準,能夠以超高效率協助訓練 Transformer 模型。AI 加速器中專門建置之 DL 架構的優勢,讓 Gaudi 技術的解決方案能提供優異的 CP 值,而且相較於電腦視覺與 NLP 模型成本相近的 V100 GPU,訓練處理量高了兩倍以上。」

TensorFlow 與 PyTorch 模型輕輕鬆鬆便能搭配 Habana Gaudi AI 處理器使用,而且只要改寫少量指令碼即可。由於 Habana® SynapseAI® SDK 幾乎不需要改寫程式碼,因此開發者可以配合運算資源變換 AI 選擇器,而且可以利用現有的指令碼,將移轉的工作量與成本降到最低。

Taneishi 說明:「若使用 TensorFlow 與 PyTorch 語法,我們完全不必更改就能使用 AI 加速器,因此不費吹灰之力就能移轉 Habana SynapseAI SDK 支援的模型及其衍生模型。」「雖然我們必須新增幾行程式碼才能控制 AI 加速器,但是在資料定義、建模、訓練或推論的過程中,相容性完全沒有問題。對於研究人員來說,最大的優勢就是我們可以用 CP 值高的電腦,立即試用學術報告發布的新模型。」

大幅加速:預測蛋白質二級結構的速度快 22%,分類醫學影像疾病模式的速度快 18%2

Taneishi 利用 Habana Gaudi AI 處理器,研究兩個領域的深度學習訓練:以語言模型 BERT-Large 預測蛋白質二級結構,以及使用電腦視覺模型 CheXNet 進行 X 光疾病分類。

為了在 3D 結構預測的第一階段預測蛋白質二級結構,利用構成蛋白質家族的 20 種氨基酸殘基訓練 DL 模型,作為預定蛋白質結構資料庫的輸入資料,進而產生二級結構序列的推論。試驗顯示,Habana Gaudi AI 處理器訓練模型時,每次反覆運算只需要 4.6 秒,相較於 V100 GPU 耗時 5.9 秒,速度快了 22%(請見圖 1)。

圖 1 顯示,使用 Habana Gaudi AI 處理器相較於 V100 GPU,蛋白質結構每次反覆運算所花的時間。

圖 1。預測蛋白質的二級結構。

使用 CheXNet 的疾病分類,輸入 30,805 名患者 112,120 張胸部 X 光影像的資料集,推論肺炎等症狀發生的類型與位置。Habana Gaudi AI 處理器每次反覆運算耗時 859.1 秒,相較於 V100 GPU 的 1,047.7 秒,訓練速度快了 18%(請見圖 2)。另外,Habana Gaudi AI 處理器與分散式資料同時執行,可確保降低例行成本,並且提高單一節點的擴充性。

圖 2 顯示,Gaudi AI 處理器相較於 V100 GPU,胸部 x 光每次反覆運算所花的時間。

圖 2。胸部 X 光影像的疾病分類。

Habana® Gaudi®2 AI 處理器的期望提高,效能高達前一代處理器的 3 倍3

為了帶動 AI 藥物發現的未來,Taneishi 目前正設法更深入瞭解,由蛋白質配體結合所導致的 3D 結構與功能變化,並且正透過找出胺基酸殘基之間距離的分子動力學(MD)軌跡,訓練 AI 模型。在醫學 AI 領域,既然有大量複雜的資料可供使用,包括電子病歷、醫學影像、基因體,以及成千上萬患者的生活方式,除了醫療影像,他正打算推動以多模態資料建模的研究。

Intel 於 2022 年 5 月宣布第 2 代 Habana® Gaudi®2 AI 處理器。這個家族的最新產品運算效率更高,將製程節點從 16 奈米縮小為 7 奈米,並且提供 24 個 TPC,數量是前一代處理器的三倍。第二代處理器還有 96 GB 記憶體,容量是第一代的三倍,而且 GbE 連接埠的數量由 10 個增加到 24 個,網路功能大幅強化。這些改進之處大幅提高了效能,相較於 A100 GPU,ResNet-50 訓練處理量的效能大約提升 2 倍4,相較於第一代 Gaudi,效能提升 3 到 4.7 倍。3

Taneishi 表示:「選用 Habana Gaudi 與 Gaudi2 AI 處理器的開發者越多,提供支援的模型與架構就越多,部署 Habana Gaudi2 AI 處理器的障礙隨之消除。」 「我們預期更強大易用的雲端環境服務將會問世,而且我迫不及待想試用了。」

下載 PDF ›