📋 文档信息
项目 | 内容 |
---|
文档标题 | CSR硬件监控防抖机制 |
文档版本 | 1.0 |
创建日期 | 2025-07-28 |
最后更新 | 2025-07-28 |
维护状态 | 活跃维护 |
📋 变更历史记录
版本 | 日期 | 变更内容 | 变更人 |
---|
1.0 | 2025-07-28 | 初始版本创建 | Hardware SIG |
🎯 硬件监控防抖机制参考
本文档仅给出硬件监控系统中使用的各种防抖机制及其应用场景的参考,具体使用还需结合业务场景和硬件性能确定。
序号 | 应用场景 | 类型 |
---|
1 | RAID卡BBU温度 | 温度监控 |
2 | CPU VRD芯片温度 | 温度监控 |
3 | GPU卡温度 | 温度监控 |
4 | Retimer芯片温度 | 温度监控 |
5 | 进风口/出风口温度 | 温度监控 |
6 | 1880核温值 | 温度监控 |
2. Cont 类(持续防抖)
2.1 cont_3
2.2 cont_5
序号 | 应用场景 | 类型 |
---|
1 | 线缆在位 | 硬件状态 |
2 | Riser卡电源异常 | 电源状态 |
3 | I2C器件访问 | 通信状态 |
4 | Riser卡在位 | 硬件状态 |
5 | 系统功率 | 功率监控 |
6 | 时钟状态监测 | 时钟状态 |
7 | EEPROM PG监控 | 硬件监控 |
8 | 出风口温度状态 | 温度状态 |
9 | 1880核温状态 | 温度状态 |
10 | SSD、HDD硬盘剩余磨损率 | 硬盘健康 |
11 | 硬盘故障状态 | 硬盘状态 |
12 | 网口连接状态 | 网络状态 |
2.3 cont_6
序号 | 应用场景 | 类型 |
---|
1 | 内存故障监控 | 内存状态 |
2 | 电源输出电压监控 | 电压监控 |
3 | 电压模块接触不良监控 | 电压监控 |
2.4 cont_20
序号 | 应用场景 | 类型 |
---|
1 | 级联器件的I2C器件故障 | 通信故障 |
2 | 电源数量不满足配置告警 | 电源配置 |
3 | 电池数量不满足配置告警 | 电池配置 |
3. MidAvg 类(中值平均防抖)
3.1 midavg_s3(有符号中值平均3次防抖)
序号 | 应用场景 | 类型 |
---|
1 | CPU温度 | 温度监控 |
2 | SSD/HDD硬盘温度 | 温度监控 |
3 | CPU VRD电压 | 电压监控 |
3.2 midavg_s4(有符号中值平均4次防抖)
序号 | 应用场景 | 类型 |
---|
1 | 进风口温度 | 温度监控 |
2 | 后置硬盘背板温度监控 | 温度监控 |
3 | GPU卡温度监控 | 温度监控 |
4 | NIC卡温度监控 | 温度监控 |
5 | IB卡温度监控 | 温度监控 |
6 | SSD/HDD硬盘温度 | 温度监控 |
7 | LOM卡温度 | 温度监控 |
8 | CPU温度 | 温度监控 |
3.3 midavg_s6(有符号中值平均6次防抖)
序号 | 应用场景 | 类型 |
---|
1 | 进风口温度监控 | 温度监控 |
2 | 出风口温度监控 | 温度监控 |
3 | CPU温度 | 温度监控 |
4 | 1711芯片温度 | 温度监控 |
5 | GPU卡温度监控 | 温度监控 |
6 | SSD/HDD硬盘温度 | 温度监控 |
7 | NIC卡温度监控 | 温度监控 |
8 | LOM卡温度 | 温度监控 |
9 | RAID卡BBU温度 | 温度监控 |
3.4 midavg_u6(无符号中值平均6次防抖)
序号 | 应用场景 | 类型 |
---|
1 | RTC电压 | 电压监控 |
2 | 硬盘背板电压 | 电压监控 |
3 | Riser电压 | 电压监控 |
4 | CPU电压 | 电压监控 |
5 | ADC电压 | 电压监控 |
4. ContBin 类(持续二值防抖)
4.1 contbin_H2L2
序号 | 应用场景 | 类型 |
---|
1 | 时钟监测 | 时钟状态 |
2 | 硬盘背板在位 | 硬件状态 |
3 | 硬盘背板I2C故障 | 通信故障 |
4 | Riser卡在位 | 硬件状态 |
5 | LOM卡在位 | 硬件状态 |
6 | CPLD开焊检测 | 硬件故障 |
7 | BasicBoard在位 | 硬件状态 |
8 | 风扇状态 | 散热状态 |
9 | 数码管显示 | 显示状态 |
10 | U位高度监控 | 物理状态 |
4.2 contbin_H2L1
序号 | 应用场景 | 类型 |
---|
1 | 电池放电状态 | 电池状态 |
2 | AR卡网口状态 | 网络状态 |
4.3 contbin_H3L3
序号 | 应用场景 | 类型 |
---|
1 | 网口linkdown状态 | 网络状态 |
2 | CPLD寄存器检测 | 硬件检测 |
3 | 获取单板boardid | 硬件信息 |
4 | CPU内存温度读取 | 温度监控 |
5 | 漏液检测卡数量 | 安全监控 |
6 | 漏液检测卡在位 | 安全监控 |
7 | 主从同步链路故障码 | 通信故障 |
8 | 水侵绳不在位 | 安全监控 |
9 | BBU故障 | 硬件故障 |
10 | 上电超时故障 | 电源故障 |
11 | Riser PG失败检测 | 硬件故障 |
12 | PCA9545故障 | 通信故障 |
13 | 风扇模块不在位 | 散热状态 |
14 | 电源冗余失效 | 电源故障 |
15 | CAN PG监控 | 通信监控 |
16 | BIOS启动超时状态监控 | 系统状态 |
17 | 级联板温度告警 | 温度告警 |
18 | 时钟信号异常告警 | 时钟故障 |
4.4 contbin_H3L1
序号 | 应用场景 | 类型 |
---|
1 | MOS过热告警 | 温度告警 |
2 | 风扇状态监控 | 散热状态 |
3 | PCIE卡拔出监控 | 硬件状态 |
4 | IOM板连接器状态 | 硬件状态 |
5 | 主板电源电压异常 | 电压异常 |
6 | 网卡在位掩码 | 网络状态 |
7 | 线缆连接告警 | 连接故障 |
8 | 线缆插错告警 | 连接故障 |
4.5 contbin_H4L4
序号 | 应用场景 | 类型 |
---|
1 | 硬盘背板在位 | 硬件状态 |
2 | 电源在位 | 电源状态 |
3 | 时钟检测 | 时钟状态 |
4 | SlimLine线缆告警 | 连接故障 |
4.6 contbin_H5L5
序号 | 应用场景 | 类型 |
---|
1 | SDI卡串口线缆在位检测 | 连接状态 |
2 | 一次备电容量告警 | 电源告警 |
3 | 后延伸板宇主板线缆检测告警 | 连接故障 |
4 | 时钟信号丢失告警 | 时钟故障 |
5 | 电源风扇故障告警 | 散热故障 |
6 | M2硬盘在位信号 | 硬盘状态 |
7 | CPU初始化异常告警 | 系统故障 |
8 | 内存故障告警 | 内存故障 |
4.7 contbin_H5L1
序号 | 应用场景 | 类型 |
---|
1 | 与管理板心跳异常 | 通信故障 |
2 | 风扇类型 | 散热配置 |
3 | 风扇冗余失效 | 散热故障 |
4 | Retimer温度读取失败 | 温度故障 |
4.8 contbin_H5L40
4.9 contbin_H10L10
序号 | 应用场景 | 类型 |
---|
1 | PCIe RAID卡故障监控 | 硬件故障 |
4.10 contbin_H10L5
序号 | 应用场景 | 类型 |
---|
1 | 进风口、出风口温度读取失败 | 温度故障 |
2 | PCH温度读取失败 | 温度故障 |
3 | CPU温度读取失败 | 温度故障 |
4 | 系统电压读取失败 | 电压故障 |
5 | PCIe switch温度读取失败 | 温度故障 |
6 | RAID卡温度读取失败 | 温度故障 |
7 | 硬盘背板I2C访问失败 | 通信故障 |
4.11 contbin_H15L15
序号 | 应用场景 | 类型 |
---|
1 | 线缆检测 | 硬件检测 |
2 | 网口带宽占用率过高监控 | 网络监控 |
4.12 contbin_H20L3
序号 | 应用场景 | 类型 |
---|
1 | SSD故障监控 | 硬盘故障 |
2 | PCIe卡在位 | 硬件状态 |
4.13 contbin_H20L0
4.14 contbin_H20L5
序号 | 应用场景 | 类型 |
---|
1 | 风扇转速异常 | 散热故障 |
2 | 电源在位个数不满足监控 | 电源配置 |
3 | 工作电源个数不满足监控 | 电源配置 |
4 | 背板/风扇板EEPROM的I2C故障 | 通信故障 |
5 | 主板上的心跳网口故障 | 网络故障 |
6 | BBU通信丢失监控 | 通信故障 |
7 | Riser PCA9545访问失败 | 通信故障 |
8 | Retimer I2C访问失败 | 通信故障 |
9 | GPU卡温度读取失败 | 温度故障 |
10 | 风扇板状态监控 | 散热状态 |
11 | PG监控 | 硬件监控 |
12 | PCA9555访问失败 | 通信故障 |
13 | PCIe RAID卡控制器通信丢失 | 通信故障 |
14 | Hi1822温度读取失败 | 温度故障 |
15 | VRD温度读取失败 | 温度故障 |
4.15 contbin_H40L5
序号 | 应用场景 | 类型 |
---|
1 | I2C通信丢失 | 通信故障 |
2 | 电源功率读取失败 | 功率故障 |
3 | I/O板中间进风口温度读取失败 | 温度故障 |
4 | EIUA板监测点电压读取失败 | 电压故障 |
5 | PCIe switch温度读取失败 | 温度故障 |
6 | PCIe卡温度读取失败 | 温度故障 |
7 | I2C器件访问失败 | 通信故障 |
8 | Retimer访问失败 | 通信故障 |
4.16 contbin_H60L5
序号 | 应用场景 | 类型 |
---|
1 | 电源冗余失效 | 电源故障 |
2 | CX4温度读取失败 | 温度故障 |
3 | 框类型数据读取失败 | 数据故障 |
4 | 节点数据读取失败 | 数据故障 |
5 | 框工作环境数据读取失败 | 数据故障 |
6 | OS载入dog数据读取失败 | 数据故障 |
7 | 硬盘分组数据读取失败 | 数据故障 |
4.17 contbin_H130L5
序号 | 应用场景 | 类型 |
---|
1 | 节点BMC心跳 | 通信监控 |
2 | CAN总线监控 | 通信监控 |
3 | SMM主备板通信监控 | 通信监控 |
4 | 节点不在位 | 硬件状态 |
5 | Retimer加载失败 | 硬件故障 |
6 | Mezz卡温度 | 温度监控 |
4.18 contbin_H5L30
防抖机制说明
命名规则
- Median: 中值滤波,数字表示滤波次数
- Cont: 持续防抖,数字表示持续次数
- MidAvg: 中值平均防抖
s
表示有符号(signed)u
表示无符号(unsigned)- 数字表示平均次数
- ContBin: 持续二值防抖
适用原则
- 温度监控:主要使用 Median 和 MidAvg 类防抖
- 状态监控:主要使用 Cont 和 ContBin 类防抖
- 电压监控:主要使用 MidAvg 类防抖
- 故障检测:主要使用 ContBin 类防抖,根据故障严重程度选择不同的防抖参数
防抖机制汇总表
监控对象分类表
监控分类 | 监控对象 | 推荐防抖机制 | 备注 |
---|
温度传感器 | | | |
| CPU温度 | midavg_s3/s4/s6 | 根据精度要求选择 |
| GPU温度 | median_s5, midavg_s4/s6 | 高精度场景使用median |
| 硬盘温度 | midavg_s3/s4/s6 | 支持SSD/HDD |
| 进风口温度 | midavg_s4/s6 | 环境温度监控 |
| 出风口温度 | median_s5, midavg_s6 | 散热效果监控 |
| 芯片温度 | median_s5, midavg_s6 | Retimer、1711、1880等 |
电压监控 | | | |
| CPU电压 | midavg_s3, midavg_u6 | 精密电压监控 |
| 电源电压 | midavg_u6 | 无符号电压值 |
| 背板电压 | midavg_u6 | 硬件供电监控 |
| 系统电压 | midavg_u6 | RTC、ADC等 |
硬件状态 | | | |
| 设备在位 | contbin_H2L2/H4L4 | 快速响应 |
| 卡片在位 | contbin_H2L2/H20L3 | Riser卡、LOM卡、PCIe卡等 |
| 硬盘在位 | contbin_H2L2/H5L5 | 硬盘背板、M2硬盘等 |
| 电源在位 | contbin_H4L4/H20L5 | 电源模块状态 |
通信监控 | | | |
| I2C通信 | cont_5/contbin_H10L5~H40L5 | 根据重要性调整 |
| 网络通信 | cont_5/contbin_H2L1~H130L5 | 网口状态、心跳监控 |
| 总线通信 | contbin_H130L5 | CAN总线、SMM通信 |
故障检测 | | | |
| 温度故障 | contbin_H10L5~H60L5 | 温度读取失败 |
| 电压故障 | contbin_H10L5~H40L5 | 电压读取失败 |
| 硬件故障 | contbin_H2L2~H130L5 | 根据故障严重程度调整 |
| 通信故障 | contbin_H3L3~H130L5 | 通信丢失、访问失败 |
系统状态 | | | |
| 系统启动 | contbin_H3L3 | BIOS启动超时 |
| 系统初始化 | contbin_H5L5 | CPU初始化异常 |
| 系统功率 | cont_5 | 系统功率监控 |
| 时钟状态 | cont_5/contbin_H2L2~H5L5 | 时钟监测和故障 |
散热监控 | | | |
| 风扇状态 | contbin_H2L2/H3L1/H5L1 | 风扇在位、转速、故障 |
| 风扇控制 | contbin_H20L0/H20L5 | 风扇转速控制 |
| 散热故障 | contbin_H3L3/H5L5 | 风扇模块、电源风扇故障 |
电源监控 | | | |
| 电源配置 | cont_20/contbin_H20L5 | 电源数量、工作状态 |
| 电源故障 | contbin_H3L3/H60L5 | 电源异常、冗余失效 |
| 电源告警 | contbin_H3L1/H5L5 | 电压异常、备电容量 |
| 电池监控 | cont_20/contbin_H2L1 | 电池数量、放电状态 |
连接监控 | | | |
| 线缆检测 | contbin_H3L1/H4L4/H5L5/H15L15 | 线缆在位、连接状态 |
| 连接故障 | contbin_H3L1/H5L5 | 线缆插错、连接异常 |
| 接口状态 | contbin_H3L1 | IOM板连接器状态 |
安全监控 | | | |
| 漏液检测 | contbin_H3L3 | 漏液检测卡管理 |
| 水侵监控 | contbin_H3L3 | 水侵绳状态 |
| 物理监控 | contbin_H2L2 | U位高度监控 |
存储监控 | | | |
| 硬盘健康 | cont_5/contbin_H20L3/H5L30 | 磨损率、故障、预故障 |
| 存储故障 | cont_5/contbin_H20L3 | 硬盘故障状态 |
内存监控 | | | |
| 内存状态 | cont_6/contbin_H5L5 | 内存故障监控 |
| 内存故障 | contbin_H5L5 | 内存故障告警 |
版本信息 | | | |
| 版本管理 | cont_3 | PCB版本信息 |
| 硬件信息 | contbin_H3L3 | 单板boardid获取 |
防抖参数选择指南
防抖类型 | 响应速度 | 稳定性 | 适用场景 | 典型参数 |
---|
Median | 中等 | 高 | 温度等模拟量监控 | median_s5 |
Cont | 快 | 中 | 数字状态监控 | cont_3~20 |
MidAvg | 慢 | 最高 | 精密测量 | midavg_s3~6, midavg_u6 |
ContBin | 可调 | 高 | 二值状态监控 | contbin_H2L2~H130L5 |
防抖参数含义
参数类型 | 参数范围 | 含义 | 建议应用场景 |
---|
Median | median_s5 | 中值滤波5次 | 温度监控 |
Cont | cont_3~20 | 持续3~20次 | 状态确认,数值越大越稳定 |
MidAvg | midavg_s3~6 | 有符号中值平均3~6次 | 模拟量平滑 |
MidAvg | midavg_u6 | 无符号中值平均6次 | 电压等正值监控 |
ContBin | contbin_H2L2 | 高2次低2次 | 快速响应的状态监控 |
ContBin | contbin_H10L5 | 高10次低5次 | 中等稳定性的故障检测 |
ContBin | contbin_H20L5 | 高20次低5次 | 重要故障的稳定检测 |
ContBin | contbin_H40L5~H130L5 | 高40~130次低5次 | 关键系统的长期稳定监控 |
防抖参数选择建议
按监控重要性分级
重要性级别 | 推荐防抖参数 | 应用场景 |
---|
关键系统 | contbin_H130L5 | 节点BMC心跳、主备板通信 |
重要硬件 | contbin_H40L5~H60L5 | 电源冗余、关键芯片温度 |
一般监控 | contbin_H10L5~H20L5 | 温度读取、I2C通信 |
快速响应 | contbin_H2L2~H5L5 | 设备在位、风扇状态 |
精密测量 | midavg_s3~6, midavg_u6 | 温度、电压精确监控 |
按故障影响分级
故障影响 | 防抖策略 | 典型应用 |
---|
系统级 | 长防抖(H60L5以上) | 电源冗余、系统心跳 |
设备级 | 中防抖(H20L5~H40L5) | 设备故障、通信丢失 |
功能级 | 短防抖(H10L5~H20L5) | 功能异常、性能监控 |
状态级 | 快防抖(H2L2~H5L5) | 状态变化、在位检测 |