FC卡的ibma信息不准确问题分析
更新时间: 2026/06/01
在Gitcode上查看源码问题背景
- 单板类型:自研板;
- 软件版本:openUBMC 25.12;
- 涉及功能:FC卡,光模块,iBMA,光模块温度值,光模块告警阈值;
- 触发条件:系统侧安装iBMA,web页面查看FC卡光模块信息。
- 业务表现:预期光模块信息正常显示;实际温度出现负值,严重告警阈值异常。
问题复现步骤
BMC环境安装LPe32002-AP的FC卡,系统侧安装iBMA,系统启动后查看web页面FC卡的光模块信息。
关键日志信息
当前温度为负数,且告警阈值也是异常值: app.log日志:
定位过程
从app.log日志可知,网卡的温度值iBMA是有上报给BMC,且BMC侧有更新的;因此需要确认是否BMC侧接收到的值异常导致; busctl 查看以下资源:/bmc/kepler/Systems/1/Sms/1/ComputerSystem/Systems/1/Storage/1/FC/0000_3A16_3A00_2E0_5F0000_3A17_3A00_2E0/Sff/Diagnostic 从截图可知,BMC侧从iBMA接收到的原本就是异常值;
确认OS侧的原始值是否异常: 从结果可知,OS侧的原始值正常;
系统侧下发命令如下:
shellhbacmd GetXcvrData 10:00:00:10:9c:1d:6f:65 2
命令结果,即在原提问中查询的命令后面加个2,获取原始数据如下,从结果可知,OS侧的原始值依然正常: 4. 查询环境上的hbacmd工具的版本,数值显示这个工具回显有关系; 使用的是在博通官网下载的安装包: 5. 尝试更换hbacmd工具安装包,怀疑是ibma和hbacmd的版本兼容性问题。
问题原因
使用hbacmd 14.2.455.10版本,iBMA使用2.16、2.17、2.19版本均可正确显示hba卡光模块信息,因此确认为ibma和hbacmd的版本兼容性问题。
解决方案
更换与iBMA匹配的hbacmd版本。