RAID卡典型问题处理案例

问题信息

表1-1 问题的基本信息

信息名称	信息内容
问题来源
该案例适用于
输出时间
关键词	RAID controller

场景分类

RAID卡告警
    | -- RAID卡故障
    | -- RAID卡BBU故障
    | -- RAID卡phy error增长
    | -- RAID卡与BMC通信异常
    | -- RAID卡UCE
    | -- 获取RAID卡温度失败
RAID卡未识别
    | -- BMC无法识别
    | -- BIOS无法识别
RAID卡复位
    | -- 兼容性问题
    | -- 硬盘故障
    | -- RAID卡固件版本过低
    | -- RAID卡异常

典型场景1：RAID卡告警问题

RAID卡故障告警

问题现象描述

问题现象：BMC上报RAID卡故障："RAID controller card 1 failure (BN:03027XWU).","2021-08-13 03:18:00","Asserted","0x06000005"。

关键过程、根本原因分析

BMC通过I2C获取RAID卡健康状态信息，如发现异常则上报。

首先排查驱动与固件是否兼容：
- 非欧拉系统使用服务器兼容性查询：https://support.huawei.com/enterprise/zh/management-software/fusionserver-idriver-pid-21588909/software
- 如果是产品配套交付，请联系产品团队确认
- 不兼容的情况在RAID卡日志中可以搜索到driver needs to be upgraded、Fatal firmware error相关打印

WARNING:Host driver needs to be upgraded to enable max MSIX vectors
WARNING:Host driver needs to be upgraded to enable extended LD support
DEAD:Fatal firmware error: Line 1573 in ../../raid/mpthostcmd.c

排查BIOS下RAID卡PCIe端口是否启用（部分BMC版本会上报为通信异常告警）：
- RAID卡对应的PCIe端口可通过产品文档查看，如2288HV5对应的RAID扣卡端口号为Port 1C

若非以上两种情况，则优先更换RAID卡。
- 可通过BMC下dump_info\AppDump\StorageMgnt\ RAID_Controller_Info确认RAID卡状态

结论、解决方案及效果

排查驱动固件配套关系、BIOS端口配置，必要时更换RAID卡。

RAID卡BBU故障

问题现象描述

问题现象：BMC上报RAID卡BBU故障："RAID card 1 BBU is fault (SN:024JMYCNL2010187, BN:03024JMY).","2021-07-31 14:25:48","Asserted","0x06000011"。

关键过程、根本原因分析

BMC的sel日志下确认有RAID卡BBU告警事件

或系统下的RAID卡日志中确认BBU GOOD状态变为0

结论、解决方案及效果

RAID卡BBU状态由RAID卡上报给BMC进行告警，因此出现RAID卡BBU告警时可直接更换。

RAID卡phy error增长过快

问题现象描述

问题现象：BMC上报RAID卡expander某个phy的error增长过快告警："RAID card (PCIe Card 4 (RAID)) expander1 PHY19 bit error increased too fast.","2021-06-04 12:38:51","Asserted","0x2B000003"。

关键过程、根本原因分析

BMC的\dump_info\AppDump\sensor_alarm\eo_sel日志下确认有RAID卡phy error增长过快打印

dump_info\LogDump\storage\phy\PCIe_Card_4_(RAID)（如果是扣卡：dump_info\LogDump\storage\phy\RAID_Card1）路径下查看PCIe_Card_4_(RAID)_Expander1_PHY_Error_Count（或 RAID_Card1_Expander1_PHY_Error_Count）中的phy error统计

此类phy error通常由链路质量问题导致，涉及硬盘背板、硬盘和IO模组，因此需要确认对应有error统计的phy对应的硬件。

Phy error的编码对应关系如下：

编码规则：N+2+2+8

其中0~N-1对应物理硬盘槽位，例如24盘位对应0~23，36盘位对应0~35
第N和N+1对应IO模组1的phy
第N+2和N+3对应IO模组2的phy
剩余8个phy对应RAID卡的上行phy 8盘位背板： | | | | | |--| --| --| --| |Phy0~7 |Phy8~9| Phy10~11 |Phy12~19| |硬盘背板Disk0~7| IO模组1（Disk40~41或Disk A~B）| IO模组2（Disk42~43或Disk C~D）| 与RAID相连|

12盘位背板：


Phy0~11 Phy12~13 Phy14~15 Phy16~23
硬盘背板Disk0~11 IO模组1（Disk40~41或Disk A~B） IO模组2（Disk42~43或Disk C~D）与RAID相连

24盘位背板：


Phy0~23	Phy24~25	Phy26~27	Phy28~35
硬盘背板Disk0~23	IO模组1（Disk40~41或Disk A~B）	IO模组2（Disk42~43或Disk C~D）	与RAID相连

25盘位背板：


Phy0~24	Phy25~26	Phy27~28	Phy29~36
硬盘背板Disk0~24	IO模组1（Disk40~41或Disk A~B）	IO模组2（Disk42~43或Disk C~D）	与RAID相连

36盘位背板：


Phy0~35	Phy36~37	Phy38~39	Phy40~47
硬盘背板Disk0~23 前置背板；Disk24~35后置背板	IO模组1（Disk40~41或Disk A~B）	IO模组2（Disk42~43或Disk C~D）	与RAID相连

Case1：phy error对应的是前置（后置）硬盘背板的phy，需要判断硬盘smart信息是否存在异常：路径：dump_info\LogDump\storage\drivelog 关键参数：SATA盘：若是SATA HDD则一般确认Reallocated_Sectors_Count, Reported_Uncorrectable_Error, Current_Pending_Sector, Offline_Uncorrectable其中是否有一项或多项有计数，如有优先更换硬盘，如没有则更换对应的前置（后置）硬盘背板，另外若UltraDMA_CRC_Error_Count一项有大量计数也可判定是硬盘链路问题，则需要优先换背板；若是SAS HDD则主要查看Elements in grown defect list或Total uncorrected errors是否有计数，若有则代表硬盘故障优先更换，否则优先更换背板。

Case2：phy error对应的是IO模组的phy，同样首先检查IO模组上的硬盘smart信息是否异常（一般对应的是系统盘）路径：dump_info\LogDump\storage\drivelog 如果smart信息异常优先更换硬盘；如果smart信息正常则链路涉及IO模组与前置硬盘背板，优先更换IO模组 Case3：phy error对应的是RAID卡上行phy，此时对应的是RAID卡与前置背板之间的链路，建议携带RAID卡、SAS线缆与背板进行排查，根据经验可以优先更换硬盘背板。


硬盘背板对应phy有error	IO模组1对应phy有error	IO模组2对应phy有error	RAID卡对应phy有error
硬盘、背板	硬盘、IO模组1、前置背板	硬盘、IO模组2、前置背板	前置背板、SAS线缆、RAID卡

结论、解决方案及效果

Case1：硬盘或背板 Case2：硬盘或IO模组或背板 Case3：背板或SAS线缆或RAID卡

RAID卡与BMC通信异常

问题现象描述

问题现象：BMC上报RAID卡与BMC通信丢失故障：

RAID扣卡："Communication between the iBMC and RAID controller card 1 failed (SN:023XNACNK8000664, BN:03023XNA).","2021-09-13 11:05:26","Asserted","0x06000025"
RAID标卡："Communication between the iBMC and PCIe card 3 (9440-8i) failed.","2021-08-03 13:21:31","Asserted","0x08000095"

关键过程、根本原因分析

BMC无法通过I2C获取RAID卡信息时会上报告警，可能是I2C链路故障，或RAID卡自身状态异常未对I2C进行应答。

对于新交付的设备，首先确认BIOS下RAID卡PCIe端口是否启用：
- RAID卡对应的PCIe端口可通过产品文档查看，如2288HV5对应的RAID扣卡端口号为Port 1C
确认BIOS的DeviceManager下RAID卡驱动是否有not healthy的状态，一般为RAID卡初始化异常导致

如果存在not healthy，需根据提示进行修复
所有类型的RAID卡均有not healthy的相关修复指导

如Avago SAS3508卡：

如果在BIOS下没有not healthy的选项，或修复后告警未消除，则说明BMC与RAID卡之间的I2C链路存在故障：
（1）如果是新开局设备，可能存在装配问题，建议下电插拔RAID卡，重新上电观察，如告警消除则继续使用
（2）如果插拔后告警继续，或非新开局设备，则需要申请备件进行排查更换：
- Case1：RAID扣卡：申请主板与RAID卡，优先更换RAID卡
- Case2：RAID标卡：申请主板、RAID卡与IO模组（若RAID标卡所在槽位为Slot3对应IO模组1，通常为系统盘所在模组；若RAID标卡所在槽位为Slot4、5、6则对应IO模组2，通常为网卡所在模组），优先级：RAID卡>IO模组>主板

结论、解决方案及效果

开启BIOS对应RAID卡的PCIe端口
修复RAID卡驱动
更换链路中的备件，涉及RAID卡、主板以及IO模组（若是RAID标卡）

RAID卡触发Uncorrectable error

问题现象描述

问题现象：BMC上报RAID卡触发Uncorrectable error：

RAID扣卡："RAID Card","The RAID controller card 1 triggered an uncorrectable error, (SN:033EFTBBL1023538, BN:03024JMY).","2021-07-10 07:53:06","Asserted","0x06000007"
RAID标卡："PCIE Card","The PCIE Card 3 (9440-8i) triggered an uncorrectable error.","2021-07-10 07:53:06","Asserted","0x80000001"

关键过程、根本原因分析

BMC sel日志查看RAID卡告警时间点

BMC maintenance日志中查看对应时间点的RAID卡相关告警信息，如有明确指向（如RAID卡电源异常pg_pptv），则直接优先更换RAID卡

如无特别指向（如只有心跳丢失），则继续排查

BMC fdm日志分析告警时间附近是否有Fatal error、Uncorrectable error

RAID卡除了自身故障会触发UCE外，槽位或CPU问题也可能触发RAID卡上报UCE。
涉及硬件包括：RAID卡、链路（主板、IO模组）、CPU，不同产品需根据各自的产品文档或用户手册确认所插槽位对应的CPU。
常见机型：

机型	RAID扣卡	RAID标卡（SLOT 4 5）	RAID标卡（SLOT 6 7 8）
RH2288 V3	CPU1	CPU1	CPU2
5288 V3	CPU1	CPU1	CPU2

机型	RAID扣卡	RAID标卡（SLOT 3）	RAID标卡（SLOT 4 5 6）
2288H V5	CPU1	CPU1	CPU2
5288 V5	CPU1	CPU1	CPU2
Taishan 200 2280	CPU1	CPU1	CPU2
Taishan 200 5280	CPU1	CPU1	CPU2

根据现网情况携带备件进行排查：
优先级：
- 扣卡：RAID卡>主板>CPU
- 标卡：RAID卡>IO模组>主板>CPU

结论、解决方案及效果

按优先级更换硬件：

扣卡：RAID卡>主板>CPU
标卡：RAID卡>IO模组>主板>CPU

RAID卡温度获取失败

问题现象描述

问题现象：BMC上报RAID卡温度获取失败："RAID Card","Failed to obtain data of the RAID controller card 1 temperature.","2021-07-10 07:53:06","Asserted","0x0600000D"

关键过程、根本原因分析

如果只有RAID卡温度告警，说明只有与RAID相连的I2C无法获取RAID卡温度，建议优先更换RAID卡，并准备主板备件

如果除了RAID卡之外还有其他无法获取温度的告警，则可能是某个I2C链路故障导致I2C总线异常，使总线上的所有温度都无法获取。此时需要携带对应的所有备件逐一排查

结论、解决方案及效果

只有RAID卡无法获取温度：优先更换RAID卡，并准备主板备件
除了RAID卡之外同时还有其他无法获取温度信息的告警：联系技术支持，携带所有涉及的器件进行排查

典型场景2：无法识别RAID卡

BMC界面无法识别RAID卡

问题现象描述

问题现象：BMC的web界面无法看到RAID卡，在BMC日志card_info下也无法识别

关键过程、根本原因分析

BMC未能识别RAID卡说明BMC未能获取到RAID卡相关信息：对于RAID扣卡，BMC通过I2C通道获取，因此BMC和BIOS对RAID卡的识别是相互独立的链路；对于RAID标卡，BMC通过BIOS上报的BDF号识别，如果未能识别则是PCIe链路问题。

首先确认RAID卡是否在服务器兼容性列表中，未在兼容性列表中的说明未进行过兼容性测试，可能存在兼容性问题
若兼容性正常，则需要排查链路：
RAID扣卡：
涉及硬件：RAID卡（含超级电容与TFM）+主板
排查建议：
（1）优先将超级电容连同TFM卡拔掉检查是否能识别（排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况），能识别则更换超级电容（含TFM卡）
（2）拔除超级电容后无法识别，则尝试重新插拔RAID卡是否能识别，能识别说明之前安装问题
（3）插拔之后依旧无法识别，建议携带RAID卡与主板进行排查，优先更换RAID卡
RAID标卡：
涉及硬件：RAID卡（含超级电容与TFM卡）+IO模组+主板+CPU
排查建议：
（1）优先将超级电容连同TFM卡拔掉检查是否能识别（排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况），能识别则更换超级电容（含TFM卡），若无超级电容备件则更换RAID标卡
（2）拔除超级电容后无法识别，则尝试重新插拔RAID卡是否能识别，能识别说明之前安装问题
（3）插拔之后依旧无法识别，建议携带RAID卡、IO模组、主板进行排查，优先更换RAID卡，其次是IO模组，最后再更换主板（CPU引发概率较低，如果更换主板之后依然无法解决（X86机型），则继续更换对应的CPU，详见产品文档）
部分机型对应关系：

机型	RAID标卡（SLOT 4 5）	RAID标卡（SLOT 6 7 8）
RH2288 V3	CPU1	CPU2
5288 V3	CPU1	CPU2

机型	RAID标卡（SLOT 3）	RAID标卡（SLOT 4 5 6）
2288H V5	CPU1	CPU2
5288 V5	CPU1	CPU2
Taishan 200 2280	CPU1	CPU2
Taishan 200 5280	CPU1	CPU2

结论、解决方案及效果

优先排查兼容性
其次按照优先级携带备件排查链路：
- RAID扣卡：RAID卡（含超级电容）+主板
- RAID标卡：RAID卡（含超级电容）+IO模组+主板+CPU（低概率）

注意：超级电容和TFM是配套更换的

BIOS界面无法识别RAID卡

问题现象描述

问题现象：BIOS侧无法识别到RAID卡

关键过程、根本原因分析

BIOS下未能识别到RAID卡的原因较多，可能是链路问题、配置问题、兼容问题，并且RAID扣卡可能存在BMC侧能识别而BIOS侧无法识别的情况。

首先确认RAID卡是否在服务器兼容性列表中，未在兼容性列表中的说明未进行过兼容性测试，可能存在兼容性问题
若兼容性正常，则需要确认RAID卡支持的BIOS类型，部分RAID卡只支持在UEFI模式下进行配置，但都支持两种模式的启动

RAID卡类型	Legacy	UEFI
LSI SAS3004iMR	√	√
LSI SAS3008IR	√	√
LSI SAS3008IT	√	√
LSI SAS3108	√	√
Avago SAS3408iMR	×	√
Avago SAS3408IT	×	√
Avago SAS3416 iMR	×	√
Avago SAS3416IT	×	√
Avago SAS3508	×	√
Avago SAS3508	×	√
Avago SAS3516	×	√

RAID卡类型	Legacy	UEFI
MSCC SmartRAID 3152-8i	√	√
MSCC SmartRAID 2100-8i	√	√
LSI 9305-24i	√	√
Avago MegaRAID SAS 9460-8i	×	√
Avago MegaRAID SAS 9440-8i	×	√
Avago MegaRAID SAS 9460-16i	×	√

若在UEFI模式下依旧无法识别，则进入RAID卡对应的PCIe端口，检查配置和link状态是否异常，具体端口与槽位对应关系需要查询产品文档或用户指南，如2288HV5的RAID扣卡对应CPU1 Port1C：
- 首先确认端口是否enable，link状态是否正常
- BIOS Configuration-Advanced- Socket Configuration-IIO Configuration -CPU1（CPU2） Configuration- 找到对应的port如Port1C

如果端口未使能，则优先改为enable或auto。若端口状态正常，但链路link状态异常，则说明RAID卡所在PCIe链路故障，如上图显示link Did Not Train
同时可在BMC的串口日志中查找RAID卡对应的PCIe建链过程是否有异常，例如下图中RAID卡对应的BDF为17/2/0，对应RAID卡启动带宽识别为Gen1，而正常为Gen3等

链路异常需携带备件进行排查验证：

RAID扣卡：RAID卡（含超级电容、TFM卡）+主板+CPU1（低概率）
RAID标卡：RAID卡（含超级电容、TFM卡）+IO模组+主板+CPU（低概率）

排查方法：

（1）优先将超级电容连同TFM卡拔掉检查是否能识别（排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况），能识别则更换超级电容（含TFM卡），若无超级电容备件则更换RAID标卡

（2）拔除超级电容后无法识别，则尝试重新插拔RAID卡是否能识别，能识别说明之前安装问题

（3）插拔之后依旧无法识别，RAID扣卡携带RAID卡和主板，RAID标卡携带RAID卡、IO模组、主板进行排查，优先更换RAID卡，其次是IO模组（适用于标卡），最后再更换主板（CPU引发概率较低，如果更换主板之后依然无法解决（X86机型），则继续更换对应的CPU，详见产品文档）

结论、解决方案及效果

优先排查兼容性、BIOS设置问题
其次按照优先级携带备件排查链路：
- RAID扣卡：RAID卡（含超级电容）+主板+CPU1（低概率）
- RAID标卡：RAID卡（含超级电容）+IO模组+主板+CPU（低概率）

注意：超级电容和TFM是配套更换的

典型场景3：RAID卡复位

排查发现有RAID卡复位（reset）的情况

问题现象描述

问题现象：OS的message日志中发现RAID卡在某个时间段有reset的打印。

关键词：

驱动名：3008卡：mpt3sas；3108、3408、3508 RAID卡：megaraid_sas
复位：fatal error、reset

关键过程、根本原因分析

RAID卡的复位有多种可能的情况，需要逐一排查：

排查兼容性：
- 首先确认配置的是服务器支持的RAID卡（部件兼容性）
- 其次排查RAID卡固件与驱动是否操作系统配套兼容（欧拉系统请联系产品团队确认），非欧拉系统使用上面的链接选择"操作系统兼容性"，对应的产品型号、对应的RAID卡点击查询

找到对应的操作系统版本，点击驱动下载链接

找到当前最新的版本

点击进入，在最底部找到驱动配套表进行确认

如果驱动和固件不配套，优先将驱动与固件版本升级到对应的配套版本
对应的驱动和固件下载也在当前链接中

由于硬盘或链路故障导致IO超时，RAID卡会优先复位硬盘进行修复，若修复不成功会尝试复位RAID卡自身进行修复：
判断方式：
（1）确认复位时间附近是否有硬盘相关的告警产生，若有告警则根据硬盘告警分析硬盘和链路状态，更换硬盘或对应硬盘背板
硬盘smart信息确认：
告警硬盘smart信息获取路径：
- BMC日志：dump_info\LogDump\storage\drivelog（若RAID卡支持带外管理功能）
- 或smartkit收集的OS日志：Datacollect\disk\disk_smart
- 或OceanStor 9000产品系统日志当前硬盘smart信息：DataCollect\disksmartinfo\smart0
- 或指令收集：smartctl –a /dev/盘符（盘符由lsscsi –g获取）
- 若是SAS HDD，则主要查看Elements in grown defect list或Total uncorrected errors是否有计数，若有则代表硬盘故障需要更换

若是SATA HDD，则一般确认Reallocated_Sectors_Count、Reported_Uncorrectable_Error、Current_Pending_Sector、Offline_Uncorrectable其中是否有一项或多项有计数，如有也优先更换硬盘，如没有则怀疑链路问题。另外，若UltraDMA_CRC_Error_Count有大量计数，也可判定为硬盘链路问题，需要优先更换背板

（2）若无告警，也首先确认复位前RAID卡日志是否有硬盘或硬盘链路相关的报错打印，若有相关打印则说明是硬盘或硬盘链路故障引起的RAID卡复位修复，只需更换硬盘或链路即可

在复位前是否有某块硬盘相关的异常打印：如下图中0号槽位（s0）有command timeout、单盘reset（path 3 reset）

或有指向硬盘的sense打印03/11或04/44

以上打印的情况优先更换硬盘，如果没有03/11或04/44相关打印，则需要将槽位对应的链路都携带：涉及硬盘与硬盘背板（或IO模组）

如果无硬盘相关问题，则需要排查复位前后RAID卡日志中有无堆栈打印：
关键字：Assertion failure

遇到此情况可以利用Assertion failure这一行的日志打印搜索案例集进行匹配，一般情况下均需要升级FW或更换RAID卡解决

若无堆栈打印或无已知匹配案例，则优先升级RAID卡FW到当前最新版本进行观察：
- 如果当前已经是最新版本，则需要将相应日志反馈给技术支持，需要联合厂商进行进一步分析
- 如果出现多次复位情况且FW已是最新版本，则直接更换RAID卡

结论、解决方案及效果

排查兼容性：使用兼容的RAID卡、操作系统、固件和驱动版本
硬盘故障或链路故障：更换硬盘或链路
FW BUG：配套升级固件与驱动
RAID卡故障：更换RAID卡

RAID卡典型问题处理案例 ​

问题信息 ​

典型场景1：RAID卡告警问题 ​

RAID卡故障告警 ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

RAID卡BBU故障 ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

RAID卡phy error增长过快 ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

RAID卡与BMC通信异常 ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

RAID卡触发Uncorrectable error ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

RAID卡温度获取失败 ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

典型场景2：无法识别RAID卡 ​

BMC界面无法识别RAID卡 ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

BIOS界面无法识别RAID卡 ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

典型场景3：RAID卡复位 ​

排查发现有RAID卡复位（reset）的情况 ​

问题现象描述 ​

关键过程、根本原因分析 ​

结论、解决方案及效果 ​

RAID卡典型问题处理案例

问题信息

典型场景1：RAID卡告警问题

RAID卡故障告警

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果

RAID卡BBU故障

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果

RAID卡phy error增长过快

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果

RAID卡与BMC通信异常

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果

RAID卡触发Uncorrectable error

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果

RAID卡温度获取失败

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果

典型场景2：无法识别RAID卡

BMC界面无法识别RAID卡

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果

BIOS界面无法识别RAID卡

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果

典型场景3：RAID卡复位

排查发现有RAID卡复位（reset）的情况

问题现象描述

关键过程、根本原因分析

结论、解决方案及效果