跳到主要內容
支援知識庫

Intel® Xeon®處理器的Intel® Data Center Diagnostic Tool

內容類型: 維護與效能   |   文章 ID: 000058107   |   最近查看日期: 2025 年 03 月 26 日

環境

Intel® Xeon®處理器

產品概述

Intel® Data Center Diagnostic Tool是驗證 CPU 核心健康情況的工具。

當前版本是 639,於 2025 年 3 月 26 日發布。

環境

超大規模雲端供應商和企業數據中心的重中之重始終是提供最佳的正常運行時間和可靠性。從歷史上看,該行業的表現相當不錯,通常可實現 >99.999% 的正常運行時間。然而,現代計算基礎架構帶來了使用者對服務品質 (QoS) 和高可用性越來越高的期望。這些期望強調了對強大軟體工具的需求,這些工具可以幫助識別並最大限度地減少可能影響 QoS 或正常運行時間的意外系統故障。

Intel 建立並使用先進的元件級測試與驗證工具,可大幅減少可能導致系統錯誤的產品瑕疵。我們的超大規模客戶及其供應商使用這些相同的 Intel 開發的軟體工具,在其系統的整個生命週期內維持機群健康。他們認識到,隨著時間的推移,密切監控系統資產可以改善整體機隊恢復能力和客戶 QoS。

Intel 深知許多不同的客戶可以從相同的功能中受益,而Intel® Data Center Diagnostic Tool是該軟體的簡化版本,用於管理內部部署環境。

Intel® 資料中心診斷工具

Intel® Data Center Diagnostic Tool (Intel® DCDiag) 專為 IT 管理人員設計,以定期維護其數據中心設備。Intel® DCDiag 可用於任何規模的數據中心,協助確保最高水準的持續品質和可用性。此外,DCDiag 可用於前景(~45 分鐘運行時間)或後台模式的定期佇列篩選,並可識別有故障的微處理器。定期進行系統維護有助於主動識別潛在問題,並使系統管理員能夠更換這些微處理器。

Intel® DCDiag 是一套測試,可有條不紊地檢查大部分 SoC 功能,包括每個微處理器核心的功能。通過驗證每個DCDiag計算是否正確,而不僅僅是確認測試正確完成執行,DCDiag 能夠檢測多種類型的故障,包括表現為靜默數據錯誤的故障。

Intel® DCDiag 透過多重測試檢查處理器運作結果是否正確,來找出故障。

  • 運行多個代碼迴圈或在所有內核上運行相同的代碼,並檢查結果是否相同。
  • 檢查高速緩存、核心對核心的通訊,以及大多數處理器指令。

隨機數據集用於測試指令和核心。報告是處理器上易於理解的通過/失敗。未通過測試的處理器應退回系統供應商或分銷商進行更換。

How Does DCDIAG Work?

測試結果

DCDiag 測試結果設計為易於理解。診斷完成後,系統將返回以下消息之一:

  • 測試已成功完成。未檢測到任何問題。
  • 測試已成功完成。發生一個或多個電腦檢查錯誤。請檢查系統紀錄。
  • 此版本的工具不支援此處理器。
    • 檢查 系統的處理器型號和版本。如果Intel Data Center Diagnostic Tool未檢測到受支援處理器的生產版本,則會出現此消息。此工具不支援工程樣品。

    • 尋找 識別 處理器的説明。

  • 測試完成。由於微碼版本過時,結果尚無定論。
    • 最新版本的微碼解決了已知問題。Intel 建議更新至最新版本。

  • 測試失敗。如需支援,請聯絡您的系統製造商或處理器廠商。
    • 如果測試結果顯示失敗, 請檢查 伺服器節點的處理器是否仍在保固期內。

    • 如果您的盒裝Intel® Xeon®處理器仍享有 3 年保固, 請聯絡 Intel Customer Support 尋求協助。

    • 如果您有托盤處理器, 請聯絡 您的系統或處理器廠商或購買地點以尋求協助。

系統要求

Intel® Data Center Diagnostic Tool是可用於 Linux* 和 Windows*作系統的應用程式。此工具可以在許多當前的 Linux* 和 Windows* 發行版上安裝和執行,請參閱 在 Linux* 和 Windows* 上安裝。

從版本 558 開始,此工具可以使用提供的 MSI 安裝程式安裝在 Windows* 上,並在 Windows® 10、Windows* Server 2016 或 Microsoft 目前支援的任何版本上運行。請查閱 Windows* Server 版本資訊,以確定目前可用和支援哪些版本的 Windows* 伺服器系統。

為了獲得最佳覆蓋率,請在伺服器的根系統中 運行 應用程式。可以在容器或虛擬機中運行它,但請注意某些功能可能被禁用。

支援的處理器:

  • Intel® Xeon® 6(原代號Sierra Forest和Granite Rapids)
  • 第 5 代 Intel® Xeon® 可擴充處理器(原名為 Emerald Rapids)
  • 第 4 代Intel® Xeon®可擴充處理器(原名為 Sapphire Rapids)
  • Intel® Xeon® CPU Max 系列(原代號 Sapphire Rapids HBM)
  • 第 3 代 Intel® Xeon® 可擴充處理器(原名為 Ice Lake 和 Cooper Lake)
  • 第 2 代 Intel® Xeon® 可擴充處理器(原名為 Cascade Lake)
  • 第 1 代Intel® Xeon®可擴充處理器(原名為 Skylake)
  • Intel® Xeon® 處理器 E5 v4 系列(原名為 Broadwell)
  • Intel® Xeon® 處理器 E7 v4 系列(原名為 Broadwell)

此外,Intel 還推出了一項名為 Intel® In-Field Scan 的全新可靠性、可用性與服務性 (RAS) 功能。這是一系列工具,旨在幫助系統管理員快速輕鬆地找到隨時間推移而發生故障的處理器。如需 Intel 現場掃描的詳細資訊, 請前往連結

Intel® In-Field ScanIntel® DCDiag 是輔助測試工具。Intel® In-Field Scan 的侵入性極小,設計用於快速測試一個核心,而節點中的所有其他核心則繼續執行客戶工作負載。Intel® DCDiag 是一個全面的處理器測試套件,當整個處理節點專用於測試時,它最有效。由於工具執行的測試內容不同,Intel 發現每個工具都能在測試的處理器中識別不同的故障。

注意: 針對開發人員:Intel 啟動了開放數據中心診斷專案,該項目開放了 Intel 的數據中心診斷框架並提供精選測試。這為開發人員提供了一個一致的測試開發框架,邀請開源社區的創造力,通過開發獨特的測試螢幕和其他創新解決方案來增強雲機群管理。有關詳細資訊, 請查看 此框架和測試。

版本歷史

日期 版本 描述
2021年7月7日 540 初始版本
8月16, 2022 549 錯誤修正
9月20, 2022 549 命令已更改以啟用該工具並驗證啟用
1月10, 2023 550 包括第 4 代 Intel® Xeon® 處理器
1月20, 2023 576 版本 576 發佈
12月14, 2023 594 版本 594 更新
2024 年 3 月 22 日 603 版本 603 發佈
2024年4月22日 605 版本 605 發佈
2024年6月21日 612 版本 612 發佈
2024年7月22日 613 版本 613 修補程式發佈
2024年9月20日 621 版本 621 發佈
2024 年 12 月 12 日 630 版本 630 發佈
2025年3月26日 639 版本 639 發佈

免責聲明

這個頁面的內容綜合了英文原始內容的人工翻譯譯文與機器翻譯譯文。本內容是基於一般資訊目的,方便您參考而提供,不應視同完整或準確的內容。如果這個頁面的英文版與譯文之間發生任何牴觸,將受英文版規範及管轄。 查看這個頁面的英文版。