CSR硬件监控防抖机制
更新时间:2025/07/28
在Gitcode上查看源码

📋 文档信息

项目内容
文档标题CSR硬件监控防抖机制
文档版本1.0
创建日期2025-07-28
最后更新2025-07-28
维护状态活跃维护

📋 变更历史记录

版本日期变更内容变更人
1.02025-07-28初始版本创建Hardware SIG

🎯 硬件监控防抖机制参考

本文档仅给出硬件监控系统中使用的各种防抖机制及其应用场景的参考,具体使用还需结合业务场景和硬件性能确定。

1. Median 类(中值滤波)

1.1 median_s5(有符号中值滤波5次防抖)

序号应用场景类型
1RAID卡BBU温度温度监控
2CPU VRD芯片温度温度监控
3GPU卡温度温度监控
4Retimer芯片温度温度监控
5进风口/出风口温度温度监控
61880核温值温度监控

2. Cont 类(持续防抖)

2.1 cont_3

序号应用场景类型
1PCB版本版本信息

2.2 cont_5

序号应用场景类型
1线缆在位硬件状态
2Riser卡电源异常电源状态
3I2C器件访问通信状态
4Riser卡在位硬件状态
5系统功率功率监控
6时钟状态监测时钟状态
7EEPROM PG监控硬件监控
8出风口温度状态温度状态
91880核温状态温度状态
10SSD、HDD硬盘剩余磨损率硬盘健康
11硬盘故障状态硬盘状态
12网口连接状态网络状态

2.3 cont_6

序号应用场景类型
1内存故障监控内存状态
2电源输出电压监控电压监控
3电压模块接触不良监控电压监控

2.4 cont_20

序号应用场景类型
1级联器件的I2C器件故障通信故障
2电源数量不满足配置告警电源配置
3电池数量不满足配置告警电池配置

3. MidAvg 类(中值平均防抖)

3.1 midavg_s3(有符号中值平均3次防抖)

序号应用场景类型
1CPU温度温度监控
2SSD/HDD硬盘温度温度监控
3CPU VRD电压电压监控

3.2 midavg_s4(有符号中值平均4次防抖)

序号应用场景类型
1进风口温度温度监控
2后置硬盘背板温度监控温度监控
3GPU卡温度监控温度监控
4NIC卡温度监控温度监控
5IB卡温度监控温度监控
6SSD/HDD硬盘温度温度监控
7LOM卡温度温度监控
8CPU温度温度监控

3.3 midavg_s6(有符号中值平均6次防抖)

序号应用场景类型
1进风口温度监控温度监控
2出风口温度监控温度监控
3CPU温度温度监控
41711芯片温度温度监控
5GPU卡温度监控温度监控
6SSD/HDD硬盘温度温度监控
7NIC卡温度监控温度监控
8LOM卡温度温度监控
9RAID卡BBU温度温度监控

3.4 midavg_u6(无符号中值平均6次防抖)

序号应用场景类型
1RTC电压电压监控
2硬盘背板电压电压监控
3Riser电压电压监控
4CPU电压电压监控
5ADC电压电压监控

4. ContBin 类(持续二值防抖)

4.1 contbin_H2L2

序号应用场景类型
1时钟监测时钟状态
2硬盘背板在位硬件状态
3硬盘背板I2C故障通信故障
4Riser卡在位硬件状态
5LOM卡在位硬件状态
6CPLD开焊检测硬件故障
7BasicBoard在位硬件状态
8风扇状态散热状态
9数码管显示显示状态
10U位高度监控物理状态

4.2 contbin_H2L1

序号应用场景类型
1电池放电状态电池状态
2AR卡网口状态网络状态

4.3 contbin_H3L3

序号应用场景类型
1网口linkdown状态网络状态
2CPLD寄存器检测硬件检测
3获取单板boardid硬件信息
4CPU内存温度读取温度监控
5漏液检测卡数量安全监控
6漏液检测卡在位安全监控
7主从同步链路故障码通信故障
8水侵绳不在位安全监控
9BBU故障硬件故障
10上电超时故障电源故障
11Riser PG失败检测硬件故障
12PCA9545故障通信故障
13风扇模块不在位散热状态
14电源冗余失效电源故障
15CAN PG监控通信监控
16BIOS启动超时状态监控系统状态
17级联板温度告警温度告警
18时钟信号异常告警时钟故障

4.4 contbin_H3L1

序号应用场景类型
1MOS过热告警温度告警
2风扇状态监控散热状态
3PCIE卡拔出监控硬件状态
4IOM板连接器状态硬件状态
5主板电源电压异常电压异常
6网卡在位掩码网络状态
7线缆连接告警连接故障
8线缆插错告警连接故障

4.5 contbin_H4L4

序号应用场景类型
1硬盘背板在位硬件状态
2电源在位电源状态
3时钟检测时钟状态
4SlimLine线缆告警连接故障

4.6 contbin_H5L5

序号应用场景类型
1SDI卡串口线缆在位检测连接状态
2一次备电容量告警电源告警
3后延伸板宇主板线缆检测告警连接故障
4时钟信号丢失告警时钟故障
5电源风扇故障告警散热故障
6M2硬盘在位信号硬盘状态
7CPU初始化异常告警系统故障
8内存故障告警内存故障

4.7 contbin_H5L1

序号应用场景类型
1与管理板心跳异常通信故障
2风扇类型散热配置
3风扇冗余失效散热故障
4Retimer温度读取失败温度故障

4.8 contbin_H5L40

序号应用场景类型
1PG监控硬件监控

4.9 contbin_H10L10

序号应用场景类型
1PCIe RAID卡故障监控硬件故障

4.10 contbin_H10L5

序号应用场景类型
1进风口、出风口温度读取失败温度故障
2PCH温度读取失败温度故障
3CPU温度读取失败温度故障
4系统电压读取失败电压故障
5PCIe switch温度读取失败温度故障
6RAID卡温度读取失败温度故障
7硬盘背板I2C访问失败通信故障

4.11 contbin_H15L15

序号应用场景类型
1线缆检测硬件检测
2网口带宽占用率过高监控网络监控

4.12 contbin_H20L3

序号应用场景类型
1SSD故障监控硬盘故障
2PCIe卡在位硬件状态

4.13 contbin_H20L0

序号应用场景类型
1风扇转速生效标志散热控制

4.14 contbin_H20L5

序号应用场景类型
1风扇转速异常散热故障
2电源在位个数不满足监控电源配置
3工作电源个数不满足监控电源配置
4背板/风扇板EEPROM的I2C故障通信故障
5主板上的心跳网口故障网络故障
6BBU通信丢失监控通信故障
7Riser PCA9545访问失败通信故障
8Retimer I2C访问失败通信故障
9GPU卡温度读取失败温度故障
10风扇板状态监控散热状态
11PG监控硬件监控
12PCA9555访问失败通信故障
13PCIe RAID卡控制器通信丢失通信故障
14Hi1822温度读取失败温度故障
15VRD温度读取失败温度故障

4.15 contbin_H40L5

序号应用场景类型
1I2C通信丢失通信故障
2电源功率读取失败功率故障
3I/O板中间进风口温度读取失败温度故障
4EIUA板监测点电压读取失败电压故障
5PCIe switch温度读取失败温度故障
6PCIe卡温度读取失败温度故障
7I2C器件访问失败通信故障
8Retimer访问失败通信故障

4.16 contbin_H60L5

序号应用场景类型
1电源冗余失效电源故障
2CX4温度读取失败温度故障
3框类型数据读取失败数据故障
4节点数据读取失败数据故障
5框工作环境数据读取失败数据故障
6OS载入dog数据读取失败数据故障
7硬盘分组数据读取失败数据故障

4.17 contbin_H130L5

序号应用场景类型
1节点BMC心跳通信监控
2CAN总线监控通信监控
3SMM主备板通信监控通信监控
4节点不在位硬件状态
5Retimer加载失败硬件故障
6Mezz卡温度温度监控

4.18 contbin_H5L30

序号应用场景类型
1NVMe盘预故障硬盘预警

防抖机制说明

命名规则

  • Median: 中值滤波,数字表示滤波次数
  • Cont: 持续防抖,数字表示持续次数
  • MidAvg: 中值平均防抖
    • s 表示有符号(signed)
    • u 表示无符号(unsigned)
    • 数字表示平均次数
  • ContBin: 持续二值防抖
    • H 表示高电平持续次数
    • L 表示低电平持续次数

适用原则

  1. 温度监控:主要使用 Median 和 MidAvg 类防抖
  2. 状态监控:主要使用 Cont 和 ContBin 类防抖
  3. 电压监控:主要使用 MidAvg 类防抖
  4. 故障检测:主要使用 ContBin 类防抖,根据故障严重程度选择不同的防抖参数

防抖机制汇总表

监控对象分类表

监控分类监控对象推荐防抖机制备注
温度传感器
CPU温度midavg_s3/s4/s6根据精度要求选择
GPU温度median_s5, midavg_s4/s6高精度场景使用median
硬盘温度midavg_s3/s4/s6支持SSD/HDD
进风口温度midavg_s4/s6环境温度监控
出风口温度median_s5, midavg_s6散热效果监控
芯片温度median_s5, midavg_s6Retimer、1711、1880等
电压监控
CPU电压midavg_s3, midavg_u6精密电压监控
电源电压midavg_u6无符号电压值
背板电压midavg_u6硬件供电监控
系统电压midavg_u6RTC、ADC等
硬件状态
设备在位contbin_H2L2/H4L4快速响应
卡片在位contbin_H2L2/H20L3Riser卡、LOM卡、PCIe卡等
硬盘在位contbin_H2L2/H5L5硬盘背板、M2硬盘等
电源在位contbin_H4L4/H20L5电源模块状态
通信监控
I2C通信cont_5/contbin_H10L5~H40L5根据重要性调整
网络通信cont_5/contbin_H2L1~H130L5网口状态、心跳监控
总线通信contbin_H130L5CAN总线、SMM通信
故障检测
温度故障contbin_H10L5~H60L5温度读取失败
电压故障contbin_H10L5~H40L5电压读取失败
硬件故障contbin_H2L2~H130L5根据故障严重程度调整
通信故障contbin_H3L3~H130L5通信丢失、访问失败
系统状态
系统启动contbin_H3L3BIOS启动超时
系统初始化contbin_H5L5CPU初始化异常
系统功率cont_5系统功率监控
时钟状态cont_5/contbin_H2L2~H5L5时钟监测和故障
散热监控
风扇状态contbin_H2L2/H3L1/H5L1风扇在位、转速、故障
风扇控制contbin_H20L0/H20L5风扇转速控制
散热故障contbin_H3L3/H5L5风扇模块、电源风扇故障
电源监控
电源配置cont_20/contbin_H20L5电源数量、工作状态
电源故障contbin_H3L3/H60L5电源异常、冗余失效
电源告警contbin_H3L1/H5L5电压异常、备电容量
电池监控cont_20/contbin_H2L1电池数量、放电状态
连接监控
线缆检测contbin_H3L1/H4L4/H5L5/H15L15线缆在位、连接状态
连接故障contbin_H3L1/H5L5线缆插错、连接异常
接口状态contbin_H3L1IOM板连接器状态
安全监控
漏液检测contbin_H3L3漏液检测卡管理
水侵监控contbin_H3L3水侵绳状态
物理监控contbin_H2L2U位高度监控
存储监控
硬盘健康cont_5/contbin_H20L3/H5L30磨损率、故障、预故障
存储故障cont_5/contbin_H20L3硬盘故障状态
内存监控
内存状态cont_6/contbin_H5L5内存故障监控
内存故障contbin_H5L5内存故障告警
版本信息
版本管理cont_3PCB版本信息
硬件信息contbin_H3L3单板boardid获取

防抖参数选择指南

防抖类型响应速度稳定性适用场景典型参数
Median中等温度等模拟量监控median_s5
Cont数字状态监控cont_3~20
MidAvg最高精密测量midavg_s3~6, midavg_u6
ContBin可调二值状态监控contbin_H2L2~H130L5

防抖参数含义

参数类型参数范围含义建议应用场景
Medianmedian_s5中值滤波5次温度监控
Contcont_3~20持续3~20次状态确认,数值越大越稳定
MidAvgmidavg_s3~6有符号中值平均3~6次模拟量平滑
MidAvgmidavg_u6无符号中值平均6次电压等正值监控
ContBincontbin_H2L2高2次低2次快速响应的状态监控
ContBincontbin_H10L5高10次低5次中等稳定性的故障检测
ContBincontbin_H20L5高20次低5次重要故障的稳定检测
ContBincontbin_H40L5~H130L5高40~130次低5次关键系统的长期稳定监控

防抖参数选择建议

按监控重要性分级

重要性级别推荐防抖参数应用场景
关键系统contbin_H130L5节点BMC心跳、主备板通信
重要硬件contbin_H40L5~H60L5电源冗余、关键芯片温度
一般监控contbin_H10L5~H20L5温度读取、I2C通信
快速响应contbin_H2L2~H5L5设备在位、风扇状态
精密测量midavg_s3~6, midavg_u6温度、电压精确监控

按故障影响分级

故障影响防抖策略典型应用
系统级长防抖(H60L5以上)电源冗余、系统心跳
设备级中防抖(H20L5~H40L5)设备故障、通信丢失
功能级短防抖(H10L5~H20L5)功能异常、性能监控
状态级快防抖(H2L2~H5L5)状态变化、在位检测