容錯啟動 (FRB) 在 Intel 伺服器主機板與 Intel® 伺服器系統上的運作方式

文件

產品資訊與文件

000007197

2023 年 12 月 11 日


症狀:

  • 什麼是 FRB?
  • 我怎麼知道它是否正常工作?
  • Intel® 伺服器上的容錯啟動。


解決 方案:

容錯啟動

BMC(基板管理控制器)執行 FRB 等級 1、2 和 3。如果預設啟動程式處理器 (BSP) 無法完成啟動過程,FRB 會嘗試使用備用處理器啟動。

  • FRB 級別 1 旨在從開機自檢期間檢測到的 BIST 故障中恢復。此 FRB 恢復完全由 BIOS 代碼處理。
  • FRB 等級 2 旨在從開機自檢期間的看門狗超時中恢復。FRB 等級 2 的看門狗計時器在 BMC 中實現。
  • FRB 等級 3 旨在從硬重定或上電時的看門狗超時中恢復。這為此級別的 FRB 提供了硬體功能。

FRB-1

在多處理器系統中,BIOS 會在多處理器 (MP) 表和 ACPI APIC 表中註冊應用程式處理器。當由BSP啟動時,如果應用處理器(AP)未能在一定時間內完成初始化,則假定其無法正常工作。如果 BIOS 偵測到某個應用程式處理器 BIST 出現故障或無法正常工作,則會要求 BMC 停用該處理器。

然後,BMC 會在禁用處理器時生成系統重置;BIOS 在下一個啟動週期中看不到故障的處理器。故障的 AP 未列于 MP 表中,也不在 ACPI APIC 表中列出,並且作業系統不可見。如果 BIOS 偵測到 BSP 的 BIST 失敗,就會向 BMC 發送一個請求,要求停用目前的處理器。如果沒有可用的替代處理器,BMC 會發出喇嗶聲並停止系統。如果 BMC 能找到另一款處理器,BSP 擁有權會透過系統重設轉移至該處理器。

FRB-2

BMC 中的第二個看門狗計時器 (FRB-2) 由 BIOS 設定約 6 分鐘,旨在保證系統完成 BIOS POST。在禁用 FRB-3 計時器之前啟用 FRB-2 計時器,以防止任何 不受保護 的時間視窗。在開機自檢快結束時,在選項 ROM 初始化之前,BIOS 將停用 BMC 中的 FRB-2 計時器。

如果系統包含 1 GB 以上的記憶體,並且使用者選擇測試記憶體的每個 DWORD,則在擴充記憶體測試開始之前禁用監視程式計時器,因為在此配置下,記憶體測試可能需要 6 分鐘以上。如果系統在開機自檢期間掛起,BIOS 將不會禁用 BMC 中的計時器,這會生成非同步系統重設 (ASR)。

FRB-3

每當系統從硬重定中出來時,第一個計時器 (FRB-3) 開始倒計時,通常約為 5 秒。如果 BSP 成功重設並開始執行,BIOS 將通過取消置位FRB_TIMER_HLT訊號 (GPIO) 來停用 BMC 中的 FRB-3 計時器,系統將繼續開機自檢。如果由於 BSP 無法取得或執行 BIOS 代碼而導致計時器過期,BMC 將重置系統並禁用故障處理器。

系統繼續更改 BSP,直到 BIOS POST 結束在 BMC 中停用 FRB-3 計時器。如果找不到合適的處理器,BMC 會在揚聲器上發出蜂鳴音。迴圈遍歷所有處理器的過程在系統重設或電源迴圈時重複。