iBMC页面一键收集日志,系统dmesg日志出现IPMI BT timeout问题分析
更新时间: 2026/06/03
在Gitcode上查看源码

问题背景

  • 单板类型:NA
  • 软件版本:NA
  • 涉及功能:iBMC 一键收集日志、IPMI BT 通道通信
  • 触发条件:服务器插入多张 GPU 卡(如 300I Duo、300I A2 卡)后,通过 iBMC 页面执行一键收集日志操作
  • 业务表现:预期一键收集日志后系统 dmesg 日志无异常报错;实际系统 dmesg 日志出现 IPMI BT: timeout in RD_WAIT 超时错误

问题复现步骤

  1. 在服务器上插入多张 GPU 卡(如 8 张 300I Duo 卡、或 8 张/5 张 300I A2 卡)
  2. 通过 iBMC Web 页面点击一键收集日志
  3. 在 OS 侧执行 dmesg 查看内核日志,观察到 IPMI BT: timeout in RD_WAIT 报错

  1. 对比测试:未插 GPU 卡或插摩尔线程 S60 卡时,执行相同一键收集日志操作,系统 dmesg 日志无 BT 超时报错
  2. BMC 串口下执行 tail -f 200 app.log 可观察到相关打印信息

关键日志信息

系统 dmesg 日志中的关键报错:

text
IPMI BT: timeout in RD_WAIT

定位过程

  1. 确认问题仅在插入多张 GPU 卡(300I Duo、300I A2)时出现,未插 GPU 卡或仅插摩尔线程 S60 卡时不存在此问题。
  2. 进一步排查 GPU 卡数量:问题机器分别为插入 8 张 300I A2 卡、5 张 300I A2 卡、8 张 300I Duo 卡。
  3. 分析发现 IPMI BT 接口性能有限,带宽较小且并发处理能力较弱。
  4. 当插入多张 GPU 卡时,一键收集日志操作会同时触发大量 IPMI 命令,与每张 GPU 卡上的 IMU(管理单元)并发通信。
  5. 短时间内 BT 通道需处理海量交互请求,导致通道拥塞,内核驱动在读取等待状态时超时,触发 timeout in RD_WAIT

问题原因

IPMI BT 通道性能有限。在多张 GPU 卡环境下,一键收集日志操作会同时触发大量与各 GPU 卡 IMU 的 IPMI 并发通信,导致 BT 通道资源不足,进而引发通信超时。

解决方案

此问题为 IPMI BT 通道在特定高并发场景下的已知性能瓶颈,非硬件故障或 BMC 固件异常,不影响正常业务运行。可采取的规避措施:

  1. 避免在业务高峰或在线状态下执行一键收集日志操作
  2. 将 GPU 卡日志收集分批进行,减少 BT 通道并发压力
  3. 正常业务负载下 BT 通道影响较小,可暂时忽略该 dmesg 告警