在太空般的黑暗環境中,細線從影像中央起始,往上移動到畫面外,形成一個由線條組成的網路

實作檢索增強生成(RAG)加速 LLM 應用的開發

瞭解如何以符合成本效益的方式自訂大型語言模型(LLM)。

重點精華

  • 如果沒有時間或預算進行微調,那麼 RAG 會是您 LLM 應用程式的理想方法。

  • 選擇可為完整管道注入動能的運算平台,包括要求嚴苛的 LLM 推斷工作負載。

  • 實施 LangChain 或 Intel Lab 的 fastRAG 等整合式 RAG 架構,協助簡化開發流程。

  • 利用專門打造的處理器與關鍵最佳化,將 RAG 管道的效能發揮到極致。

  • 使用 Intel® Tiber™ 開發者雲端,在 Intel® AI Portfolio 和雲端供應商上測試 RAG 應用程式效能

加速您的 RAG 與生成式 AI 成功

聊天機器人等大型語言模型(LLM)的應用正為各行各業帶來所向披靡的助益。組織使用 LLM 降低營運成本、提升員工生產力,並提供更個人化的客戶體驗。

由於像您這樣的組織無不爭相將這項變革性的技術轉為競爭優勢,因此絕大多數組織必須先根據組織資料量身打造現成的 LLM,這樣模型才能提供特定業務的 AI 結果。然而,微調模型所需的成本和時間投資可能會形成龐大的障礙,讓許多潛在的創新者望之卻步。

為了克服這些障礙,檢索增強生成(RAG)提供更符合成本效益的 LLM 自訂方法。RAG 可讓您在無需微調的情況下根據專有資料建立模型,協助您快速推出為企業或客戶量身打造的 LLM 應用。RAG 方法可讓您將現成的 LLM 與根據組織的獨特專有資料所建構的外部知識庫連結,無需重新訓練或微調。這個知識庫透過組織特定的情境和資訊,為模型的輸出提供資訊。

在本文中,您將瞭解如何設定 RAG 實作的關鍵要素,包括選擇軟硬體基礎,以及打造自己的知識庫,以及將生產中的應用最佳化。我們也會分享工具和資源,協助您在管道的每個階段獲得最大的成效與效率。

什麼時候適合使用 RAG?

在開始評估管道架構模塊前,請務必考量 RAG 或微調是否最適合您的 LLM 應用。

這兩種方法都是從基礎 LLM 開始著手,相較於從頭訓練模型,自訂 LLM 更為快捷。基礎模型經過預先訓練,無需使用大量資料集、資料專家團隊或額外的運算能力來訓練。

然而,選擇基礎模型後,仍需根據您的業務加以自訂,模型才能提供滿足您挑戰和需求的結果。如果沒有時間或金錢投資微調,那麼 RAG 會非常適合您的 LLM 應用。RAG 還能降低幻覺風險,可為輸出提供來源,以提高可解釋性,更由於敏感資訊安全保存在私有資料庫中,而帶來安全性優勢。

進一步瞭解 RAG 可為您的生成式 AI 計畫帶來哪些助益

選擇首重效能與安全性的硬體

RAG 管道包含許多運算密集型元件,且終端使用者希望得到低延遲的回應。因此,當您尋求端對端管道支援時,選擇運算平台是最重要的決策之一。

Intel® Xeon® 處理器可讓您在單一平台上支援及管理完整的 RAG 管道,簡化開發、部署與維護事宜。Intel® Xeon® 處理器包含整合式 AI 引擎,無需額外硬體,即可在 CPU 上加速整個管道的關鍵作業(包括擷取資料、檢索和 AI 推斷)。

對於需要最高輸送量或最低延遲的 RAG 應用,您可以整合 Intel® Gaudi® AI 加速器,以符合成本效益的方式滿足進階效能需求。Intel® Gaudi® 加速器專為加速推斷而打造,甚至可以取代 CPU 和其他 RAG 推斷的加速器。

由於組織在處理機密資料時經常使用 RAG,因此在開發與生產過程中保護管道至關重要。Intel® Xeon® 處理器採用內建的安全性技術 Intel® Software Guard Extensions(Intel® SGX)Intel® Trust DomainExtensions(Intel® TDX),透過機密運算和資料加密,實現整個管道的安全 AI 處理。

部署後,由於終端使用者需求上升,您的應用可能會碰到更高的延遲。Intel® 硬體具高度擴充性,可讓您快速增添基礎架構資源,滿足與日俱增的使用需求。您也可以整合最佳化,以支援整個管道的關鍵作業,例如資料向量化、向量搜尋和 LLM 推斷。

您可以透過 Intel® Tiber™ 開發者雲端,在 Intel® Xeon® 和 Intel® Gaudi® AI 處理器上測試 RAG 效能

使用 RAG 架構輕鬆整合 AI 工具鏈

為了連結許多元件,RAG 管道結合多種用於擷取資料、向量資料庫、LLM 等的 AI 工具鏈。

在您著手開發 RAG 應用之際,LangChainIntel Lab 的 fastRAGLlamaIndex 等整合式 RAG 架構可簡化開發。RAG 架構通常提供 API 以在整個管道中無縫整合 AI 工具鏈,並為實際使用案例提供基於範本的解決方案。

Intel 提供最佳化,協助在 Intel® 硬體上發揮最大整體管道效能。例如,fastRAG 能整合 Intel® Extension for PyTorchOptimum Habana,最佳化 Intel® Xeon® 處理器和 Intel® Gaudi® AI 加速器上的 RAG 應用。

Intel 也為 LangChain 進行最佳化,提升 Intel® 硬體的效能。瞭解如何使用 LangChain 和 Intel® Gaudi® 2 AI 加速器輕鬆設定工作流程

打造您的知識庫

RAG 允許組織向 LLM 提供與業務與客戶相關的重要專有資訊。這些資料儲存在您可以自行建置的向量資料庫中。

辨識資訊來源

試想一下,使用 RAG 部署 AI 個人助理,協助員工回答有關組織的問題。您可以提供 LLM 關鍵資料,例如產品資訊、公司政策、客戶資料與特定部門的通訊協定。員工可以向 RAG 支援的聊天機器人提問,並取得組織特定的答案,協助員工更快完成工作,並讓他們專注於策略性思考。

想當然爾,知識庫會因不同的產業與應用而有所差異。製藥公司可能希望使用測試結果和病歷存檔。製造商可以將設備規格和歷史效能資料輸入採用 RAG 的機械手臂,以便儘早偵測潛在的設備問題。金融機構可能希望將 LLM 與專有金融策略和即時市場趨勢連結,讓聊天機器人提供個人化的財務建議。

最終,為了建立知識庫,您必須收集想要 LLM 存取的重要資料。這些資料可能來自各種文字來源,包括 PDF、影片轉錄內容、電子郵件、簡報幻燈片,甚至是維基百科頁面和試算表等來源的表格資料。RAG 也支援多形式 AI 解決方案,結合多種 AI 模型來處理任何形式的資料,舉凡聲音、影像和影片皆包括在內。

舉例來說,零售商可以使用多模態 RAG 解決方案快速搜尋重大事件的監控影片。為此,零售商會建立影片片段資料庫,並利用文字提示(例如「男人把東西塞進口袋」)來辨識相關影片,而無需在數百小時的影片中海底撈針。

準備資料

為了為高效處理資料做好準備,您的首要工作是清理資料(例如移除重複的資訊和噪音),並將資料拆成好管理的細項。可以在這裡閱讀更多清理資料的秘訣

接下來,需要使用稱為嵌入模型的 AI 架構,將資料轉換成向量(即以數學方式表示的文字),協助模型更深入瞭解上下文。可以從第三方下載嵌入模型(例如 Hugging Face 開放原始碼嵌入模型排行榜上的模型),而且通常可以透過 Hugging Face API 無縫整合至 RAG 架構。向量化後,您可以將資料儲存於向量資料庫,以便模型高效檢索。

根據資料的體積和複雜程度,處理資料與建立嵌入可能與 LLM 推斷一樣需要密集運算。Intel® Xeon® 處理器可以在基於 CPU 的節點上高效處理所有資料攝取、嵌入和向量,無需任何額外硬體。

此外,Intel® Xeon® 處理器可與量化嵌入模型配對,以最佳化向量化流程,相較於非量化模型,編碼輸送量提升高達 4 倍1

最佳化查詢與情境檢索

使用者向採用 RAG 的模型提交查詢時,檢索機制會搜尋您的知識庫,尋找相關的外部資料,使 LLM 的最終輸出更加豐富。這個過程仰賴向量搜尋作業,尋找最相關的資訊並進行排名。

向量搜尋作業在 Intel® Xeon® 處理器上進行高度最佳化。Intel® Xeon® 處理器內建的 Intel® Advanced Vector Extensions 512(Intel® AVX-512)增強向量搜尋的關鍵作業,並減少指令數量,大幅提升輸送量和效能。

您也可以利用 Intel Lab 的可擴充向量搜尋(SVS)解決方案提升向量資料庫的效能。SVS 最佳化了 Intel® Xeon® CPU 上的向量搜尋功能,縮短檢索時間並提升整體管道的效能。

最佳化 LLM 回應生成

有了向量儲存的額外資料後,LLM 即可以產生合乎情境的回應。這涉及 LLM 推斷,通常是 RAG 管道中運算要求最嚴苛的階段。

Intel® Xeon® 處理器採用 Intel® Advanced Matrix Extensions(Intel® AMX)這款內建的 AI 加速器,實現更高效的矩陣作業並改善記憶體管理,協助將推斷效能發揮到極致。中型和大型 LLM 可使用 Intel® Gaudi® AI 加速器,憑藉專門打造的 AI 效能和效率來加速推斷。

Intel 也提供多種最佳化資料庫,協助您在硬體資源上將 LLM 推斷發揮到極致。我們的 Intel® oneAPI 資料庫提供針對 PyTorch 及 TensorFlow 等常用 AI 架構的低層級最佳化,以便您使用在 Intel® 硬體上最佳化且熟悉的開放原始碼工具。您也可以新增諸如 Intel® Extension for PyTorch 等擴充功能,實現進階量化推斷技術,提升整體效能。

應用程式投入生產後,您可能希望升級至最新的 LLM,以便跟上終端使用者的需求。由於 RAG 不涉及微調,且您的知識庫位於模型之外,因此 RAG 可讓您以新的模型快速取代 LLM,以支援更快的推斷。

透過 Intel 加速您的 RAG 旅程

RAG 可協助您在無需微調的情況下以快速、符合成本效益的方式部署自訂的 LLM 應用程式。使用合適的架構模塊,僅需幾個步驟即可設定最佳化 RAG 管道。

推行 AI 計畫時,請務必利用 Intel® AI Portfolio 來增強 RAG 管道的每個階段。我們的軟硬體解決方案專為加速您的成功而打造。