FC卡的ibma信息不准确问题分析
更新时间: 2026/06/01
在Gitcode上查看源码

问题背景

  • 单板类型:自研板;
  • 软件版本:openUBMC 25.12;
  • 涉及功能:FC卡,光模块,iBMA,光模块温度值,光模块告警阈值;
  • 触发条件:系统侧安装iBMA,web页面查看FC卡光模块信息。
  • 业务表现:预期光模块信息正常显示;实际温度出现负值,严重告警阈值异常。

问题复现步骤

BMC环境安装LPe32002-AP的FC卡,系统侧安装iBMA,系统启动后查看web页面FC卡的光模块信息。

关键日志信息

当前温度为负数,且告警阈值也是异常值: app.log日志:

定位过程

  1. 从app.log日志可知,网卡的温度值iBMA是有上报给BMC,且BMC侧有更新的;因此需要确认是否BMC侧接收到的值异常导致; busctl 查看以下资源:/bmc/kepler/Systems/1/Sms/1/ComputerSystem/Systems/1/Storage/1/FC/0000_3A16_3A00_2E0_5F0000_3A17_3A00_2E0/Sff/Diagnostic 从截图可知,BMC侧从iBMA接收到的原本就是异常值;

  2. 确认OS侧的原始值是否异常: 从结果可知,OS侧的原始值正常;

  3. 系统侧下发命令如下:

    shell
      hbacmd GetXcvrData 10:00:00:10:9c:1d:6f:65 2

命令结果,即在原提问中查询的命令后面加个2,获取原始数据如下,从结果可知,OS侧的原始值依然正常: 4. 查询环境上的hbacmd工具的版本,数值显示这个工具回显有关系; 使用的是在博通官网下载的安装包: 5. 尝试更换hbacmd工具安装包,怀疑是ibma和hbacmd的版本兼容性问题。

问题原因

使用hbacmd 14.2.455.10版本,iBMA使用2.16、2.17、2.19版本均可正确显示hba卡光模块信息,因此确认为ibma和hbacmd的版本兼容性问题。

解决方案

更换与iBMA匹配的hbacmd版本。