iBMC页面一键收集日志,系统dmesg日志出现IPMI BT timeout问题分析
更新时间: 2026/06/03
在Gitcode上查看源码问题背景
- 单板类型:NA
- 软件版本:NA
- 涉及功能:iBMC 一键收集日志、IPMI BT 通道通信
- 触发条件:服务器插入多张 GPU 卡(如 300I Duo、300I A2 卡)后,通过 iBMC 页面执行一键收集日志操作
- 业务表现:预期一键收集日志后系统 dmesg 日志无异常报错;实际系统 dmesg 日志出现
IPMI BT: timeout in RD_WAIT超时错误
问题复现步骤
- 在服务器上插入多张 GPU 卡(如 8 张 300I Duo 卡、或 8 张/5 张 300I A2 卡)
- 通过 iBMC Web 页面点击一键收集日志
- 在 OS 侧执行
dmesg查看内核日志,观察到IPMI BT: timeout in RD_WAIT报错
- 对比测试:未插 GPU 卡或插摩尔线程 S60 卡时,执行相同一键收集日志操作,系统 dmesg 日志无 BT 超时报错
- BMC 串口下执行
tail -f 200 app.log可观察到相关打印信息
关键日志信息
系统 dmesg 日志中的关键报错:
text
IPMI BT: timeout in RD_WAIT定位过程
- 确认问题仅在插入多张 GPU 卡(300I Duo、300I A2)时出现,未插 GPU 卡或仅插摩尔线程 S60 卡时不存在此问题。
- 进一步排查 GPU 卡数量:问题机器分别为插入 8 张 300I A2 卡、5 张 300I A2 卡、8 张 300I Duo 卡。
- 分析发现 IPMI BT 接口性能有限,带宽较小且并发处理能力较弱。
- 当插入多张 GPU 卡时,一键收集日志操作会同时触发大量 IPMI 命令,与每张 GPU 卡上的 IMU(管理单元)并发通信。
- 短时间内 BT 通道需处理海量交互请求,导致通道拥塞,内核驱动在读取等待状态时超时,触发
timeout in RD_WAIT。
问题原因
IPMI BT 通道性能有限。在多张 GPU 卡环境下,一键收集日志操作会同时触发大量与各 GPU 卡 IMU 的 IPMI 并发通信,导致 BT 通道资源不足,进而引发通信超时。
解决方案
此问题为 IPMI BT 通道在特定高并发场景下的已知性能瓶颈,非硬件故障或 BMC 固件异常,不影响正常业务运行。可采取的规避措施:
- 避免在业务高峰或在线状态下执行一键收集日志操作
- 将 GPU 卡日志收集分批进行,减少 BT 通道并发压力
- 正常业务负载下 BT 通道影响较小,可暂时忽略该 dmesg 告警