RAID卡典型问题处理案例
问题信息
表1-1 问题的基本信息
| 信息名称 | 信息内容 |
|---|---|
| 问题来源 | |
| 该案例适用于 | |
| 输出时间 | |
| 关键词 | RAID controller |
场景分类
RAID卡告警
| -- RAID卡故障
| -- RAID卡BBU故障
| -- RAID卡phy error增长
| -- RAID卡与BMC通信异常
| -- RAID卡UCE
| -- 获取RAID卡温度失败
RAID卡未识别
| -- BMC无法识别
| -- BIOS无法识别
RAID卡复位
| -- 兼容性问题
| -- 硬盘故障
| -- RAID卡固件版本过低
| -- RAID卡异常典型场景1:RAID卡告警问题
RAID卡故障告警
问题现象描述
问题现象:BMC上报RAID卡故障:"RAID controller card 1 failure (BN:03027XWU).","2021-08-13 03:18:00","Asserted","0x06000005"。
关键过程、根本原因分析
BMC通过I2C获取RAID卡健康状态信息,如发现异常则上报。
- 首先排查驱动与固件是否兼容:
- 非欧拉系统使用服务器兼容性查询:https://support.huawei.com/enterprise/zh/management-software/fusionserver-idriver-pid-21588909/software
- 如果是产品配套交付,请联系产品团队确认
- 不兼容的情况在RAID卡日志中可以搜索到driver needs to be upgraded、Fatal firmware error相关打印
WARNING:Host driver needs to be upgraded to enable max MSIX vectors
WARNING:Host driver needs to be upgraded to enable extended LD support
DEAD:Fatal firmware error: Line 1573 in ../../raid/mpthostcmd.c- 排查BIOS下RAID卡PCIe端口是否启用(部分BMC版本会上报为通信异常告警):
- RAID卡对应的PCIe端口可通过产品文档查看,如2288HV5对应的RAID扣卡端口号为Port 1C
- 若非以上两种情况,则优先更换RAID卡。
- 可通过BMC下dump_info\AppDump\StorageMgnt\ RAID_Controller_Info确认RAID卡状态
结论、解决方案及效果
排查驱动固件配套关系、BIOS端口配置,必要时更换RAID卡。
RAID卡BBU故障
问题现象描述
问题现象:BMC上报RAID卡BBU故障:"RAID card 1 BBU is fault (SN:024JMYCNL2010187, BN:03024JMY).","2021-07-31 14:25:48","Asserted","0x06000011"。
关键过程、根本原因分析
- BMC的sel日志下确认有RAID卡BBU告警事件
- 或系统下的RAID卡日志中确认BBU GOOD状态变为0
结论、解决方案及效果
RAID卡BBU状态由RAID卡上报给BMC进行告警,因此出现RAID卡BBU告警时可直接更换。
RAID卡phy error增长过快
问题现象描述
问题现象:BMC上报RAID卡expander某个phy的error增长过快告警:"RAID card (PCIe Card 4 (RAID)) expander1 PHY19 bit error increased too fast.","2021-06-04 12:38:51","Asserted","0x2B000003"。
关键过程、根本原因分析
- BMC的\dump_info\AppDump\sensor_alarm\eo_sel日志下确认有RAID卡phy error增长过快打印
- dump_info\LogDump\storage\phy\PCIe_Card_4_(RAID)(如果是扣卡:dump_info\LogDump\storage\phy\RAID_Card1)路径下查看PCIe_Card_4_(RAID)_Expander1_PHY_Error_Count(或 RAID_Card1_Expander1_PHY_Error_Count)中的phy error统计
- 此类phy error通常由链路质量问题导致,涉及硬盘背板、硬盘和IO模组,因此需要确认对应有error统计的phy对应的硬件。
Phy error的编码对应关系如下:
编码规则:N+2+2+8
- 其中0~N-1对应物理硬盘槽位,例如24盘位对应0~23,36盘位对应0~35
- 第N和N+1对应IO模组1的phy
- 第N+2和N+3对应IO模组2的phy
- 剩余8个phy对应RAID卡的上行phy 8盘位背板: | | | | | |--| --| --| --| |Phy0~7 |Phy8~9| Phy10~11 |Phy12~19| |硬盘背板Disk0~7| IO模组1(Disk40~41或Disk A~B)| IO模组2(Disk42~43或Disk C~D)| 与RAID相连|
12盘位背板:
| Phy0~11 Phy12~13 Phy14~15 Phy16~23 | |||
| 硬盘背板Disk0~11 IO模组1(Disk40~41或Disk A~B) IO模组2(Disk42~43或Disk C~D) 与RAID相连 |
24盘位背板:
| Phy0~23 | Phy24~25 | Phy26~27 | Phy28~35 |
| 硬盘背板Disk0~23 | IO模组1(Disk40~41或Disk A~B) | IO模组2(Disk42~43或Disk C~D) | 与RAID相连 |
25盘位背板:
| Phy0~24 | Phy25~26 | Phy27~28 | Phy29~36 |
| 硬盘背板Disk0~24 | IO模组1(Disk40~41或Disk A~B) | IO模组2(Disk42~43或Disk C~D) | 与RAID相连 |
36盘位背板:
| Phy0~35 | Phy36~37 | Phy38~39 | Phy40~47 |
| 硬盘背板Disk0~23 前置背板;Disk24~35后置背板 | IO模组1(Disk40~41或Disk A~B) | IO模组2(Disk42~43或Disk C~D) | 与RAID相连 |
Case1:phy error对应的是前置(后置)硬盘背板的phy,需要判断硬盘smart信息是否存在异常: 路径:dump_info\LogDump\storage\drivelog 关键参数:SATA盘:若是SATA HDD则一般确认Reallocated_Sectors_Count, Reported_Uncorrectable_Error, Current_Pending_Sector, Offline_Uncorrectable其中是否有一项或多项有计数,如有优先更换硬盘,如没有则更换对应的前置(后置)硬盘背板,另外若UltraDMA_CRC_Error_Count一项有大量计数也可判定是硬盘链路问题,则需要优先换背板; 若是SAS HDD则主要查看Elements in grown defect list或Total uncorrected errors是否有计数,若有则代表硬盘故障优先更换,否则优先更换背板。
Case2:phy error对应的是IO模组的phy,同样首先检查IO模组上的硬盘smart信息是否异常(一般对应的是系统盘) 路径:dump_info\LogDump\storage\drivelog 如果smart信息异常优先更换硬盘; 如果smart信息正常则链路涉及IO模组与前置硬盘背板,优先更换IO模组 Case3:phy error对应的是RAID卡上行phy, 此时对应的是RAID卡与前置背板之间的链路,建议携带RAID卡、SAS线缆与背板进行排查,根据经验可以优先更换硬盘背板。
| 硬盘背板对应phy有error | IO模组1对应phy有error | IO模组2对应phy有error | RAID卡对应phy有error |
| 硬盘、背板 | 硬盘、IO模组1、前置背板 | 硬盘、IO模组2、前置背板 | 前置背板、SAS线缆、RAID卡 |
结论、解决方案及效果
Case1:硬盘或背板 Case2:硬盘或IO模组或背板 Case3:背板或SAS线缆或RAID卡
RAID卡与BMC通信异常
问题现象描述
问题现象:BMC上报RAID卡与BMC通信丢失故障:
- RAID扣卡:"Communication between the iBMC and RAID controller card 1 failed (SN:023XNACNK8000664, BN:03023XNA).","2021-09-13 11:05:26","Asserted","0x06000025"
- RAID标卡:"Communication between the iBMC and PCIe card 3 (9440-8i) failed.","2021-08-03 13:21:31","Asserted","0x08000095"
关键过程、根本原因分析
BMC无法通过I2C获取RAID卡信息时会上报告警,可能是I2C链路故障,或RAID卡自身状态异常未对I2C进行应答。
对于新交付的设备,首先确认BIOS下RAID卡PCIe端口是否启用:
- RAID卡对应的PCIe端口可通过产品文档查看,如2288HV5对应的RAID扣卡端口号为Port 1C
确认BIOS的DeviceManager下RAID卡驱动是否有not healthy的状态,一般为RAID卡初始化异常导致
- 如果存在not healthy,需根据提示进行修复
- 所有类型的RAID卡均有not healthy的相关修复指导
如Avago SAS3508卡:
如果在BIOS下没有not healthy的选项,或修复后告警未消除,则说明BMC与RAID卡之间的I2C链路存在故障:
(1)如果是新开局设备,可能存在装配问题,建议下电插拔RAID卡,重新上电观察,如告警消除则继续使用
(2)如果插拔后告警继续,或非新开局设备,则需要申请备件进行排查更换:
- Case1:RAID扣卡:申请主板与RAID卡,优先更换RAID卡
- Case2:RAID标卡:申请主板、RAID卡与IO模组(若RAID标卡所在槽位为Slot3对应IO模组1,通常为系统盘所在模组;若RAID标卡所在槽位为Slot4、5、6则对应IO模组2,通常为网卡所在模组),优先级:RAID卡>IO模组>主板
结论、解决方案及效果
- 开启BIOS对应RAID卡的PCIe端口
- 修复RAID卡驱动
- 更换链路中的备件,涉及RAID卡、主板以及IO模组(若是RAID标卡)
RAID卡触发Uncorrectable error
问题现象描述
问题现象:BMC上报RAID卡触发Uncorrectable error:
- RAID扣卡:"RAID Card","The RAID controller card 1 triggered an uncorrectable error, (SN:033EFTBBL1023538, BN:03024JMY).","2021-07-10 07:53:06","Asserted","0x06000007"
- RAID标卡:"PCIE Card","The PCIE Card 3 (9440-8i) triggered an uncorrectable error.","2021-07-10 07:53:06","Asserted","0x80000001"
关键过程、根本原因分析
- BMC sel日志查看RAID卡告警时间点
- BMC maintenance日志中查看对应时间点的RAID卡相关告警信息,如有明确指向(如RAID卡电源异常pg_pptv),则直接优先更换RAID卡
如无特别指向(如只有心跳丢失),则继续排查
- BMC fdm日志分析告警时间附近是否有Fatal error、Uncorrectable error
RAID卡除了自身故障会触发UCE外,槽位或CPU问题也可能触发RAID卡上报UCE。
涉及硬件包括:RAID卡、链路(主板、IO模组)、CPU,不同产品需根据各自的产品文档或用户手册确认所插槽位对应的CPU。
常见机型:
| 机型 | RAID扣卡 | RAID标卡(SLOT 4 5) | RAID标卡(SLOT 6 7 8) |
|---|---|---|---|
| RH2288 V3 | CPU1 | CPU1 | CPU2 |
| 5288 V3 | CPU1 | CPU1 | CPU2 |
| 机型 | RAID扣卡 | RAID标卡(SLOT 3) | RAID标卡(SLOT 4 5 6) |
|---|---|---|---|
| 2288H V5 | CPU1 | CPU1 | CPU2 |
| 5288 V5 | CPU1 | CPU1 | CPU2 |
| Taishan 200 2280 | CPU1 | CPU1 | CPU2 |
| Taishan 200 5280 | CPU1 | CPU1 | CPU2 |
根据现网情况携带备件进行排查:
优先级:
- 扣卡:RAID卡>主板>CPU
- 标卡:RAID卡>IO模组>主板>CPU
结论、解决方案及效果
按优先级更换硬件:
- 扣卡:RAID卡>主板>CPU
- 标卡:RAID卡>IO模组>主板>CPU
RAID卡温度获取失败
问题现象描述
问题现象:BMC上报RAID卡温度获取失败:"RAID Card","Failed to obtain data of the RAID controller card 1 temperature.","2021-07-10 07:53:06","Asserted","0x0600000D"
关键过程、根本原因分析
- 如果只有RAID卡温度告警,说明只有与RAID相连的I2C无法获取RAID卡温度,建议优先更换RAID卡,并准备主板备件
- 如果除了RAID卡之外还有其他无法获取温度的告警,则可能是某个I2C链路故障导致I2C总线异常,使总线上的所有温度都无法获取。此时需要携带对应的所有备件逐一排查
结论、解决方案及效果
- 只有RAID卡无法获取温度:优先更换RAID卡,并准备主板备件
- 除了RAID卡之外同时还有其他无法获取温度信息的告警:联系技术支持,携带所有涉及的器件进行排查
典型场景2:无法识别RAID卡
BMC界面无法识别RAID卡
问题现象描述
问题现象:BMC的web界面无法看到RAID卡,在BMC日志card_info下也无法识别
关键过程、根本原因分析
BMC未能识别RAID卡说明BMC未能获取到RAID卡相关信息:对于RAID扣卡,BMC通过I2C通道获取,因此BMC和BIOS对RAID卡的识别是相互独立的链路;对于RAID标卡,BMC通过BIOS上报的BDF号识别,如果未能识别则是PCIe链路问题。
首先确认RAID卡是否在服务器兼容性列表中,未在兼容性列表中的说明未进行过兼容性测试,可能存在兼容性问题
若兼容性正常,则需要排查链路:
RAID扣卡:
涉及硬件:RAID卡(含超级电容与TFM)+主板
排查建议:
(1)优先将超级电容连同TFM卡拔掉检查是否能识别(排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况),能识别则更换超级电容(含TFM卡)
(2)拔除超级电容后无法识别,则尝试重新插拔RAID卡是否能识别,能识别说明之前安装问题
(3)插拔之后依旧无法识别,建议携带RAID卡与主板进行排查,优先更换RAID卡
RAID标卡:
涉及硬件:RAID卡(含超级电容与TFM卡)+IO模组+主板+CPU
排查建议:
(1)优先将超级电容连同TFM卡拔掉检查是否能识别(排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况),能识别则更换超级电容(含TFM卡),若无超级电容备件则更换RAID标卡
(2)拔除超级电容后无法识别,则尝试重新插拔RAID卡是否能识别,能识别说明之前安装问题
(3)插拔之后依旧无法识别,建议携带RAID卡、IO模组、主板进行排查,优先更换RAID卡,其次是IO模组,最后再更换主板(CPU引发概率较低,如果更换主板之后依然无法解决(X86机型),则继续更换对应的CPU,详见产品文档)
部分机型对应关系:
| 机型 | RAID标卡(SLOT 4 5) | RAID标卡(SLOT 6 7 8) |
|---|---|---|
| RH2288 V3 | CPU1 | CPU2 |
| 5288 V3 | CPU1 | CPU2 |
| 机型 | RAID标卡(SLOT 3) | RAID标卡(SLOT 4 5 6) |
|---|---|---|
| 2288H V5 | CPU1 | CPU2 |
| 5288 V5 | CPU1 | CPU2 |
| Taishan 200 2280 | CPU1 | CPU2 |
| Taishan 200 5280 | CPU1 | CPU2 |
结论、解决方案及效果
- 优先排查兼容性
- 其次按照优先级携带备件排查链路:
- RAID扣卡:RAID卡(含超级电容)+主板
- RAID标卡:RAID卡(含超级电容)+IO模组+主板+CPU(低概率)
注意:超级电容和TFM是配套更换的
BIOS界面无法识别RAID卡
问题现象描述
问题现象:BIOS侧无法识别到RAID卡
关键过程、根本原因分析
BIOS下未能识别到RAID卡的原因较多,可能是链路问题、配置问题、兼容问题,并且RAID扣卡可能存在BMC侧能识别而BIOS侧无法识别的情况。
首先确认RAID卡是否在服务器兼容性列表中,未在兼容性列表中的说明未进行过兼容性测试,可能存在兼容性问题
若兼容性正常,则需要确认RAID卡支持的BIOS类型,部分RAID卡只支持在UEFI模式下进行配置,但都支持两种模式的启动
| RAID卡类型 | Legacy | UEFI |
|---|---|---|
| LSI SAS3004iMR | √ | √ |
| LSI SAS3008IR | √ | √ |
| LSI SAS3008IT | √ | √ |
| LSI SAS3108 | √ | √ |
| Avago SAS3408iMR | × | √ |
| Avago SAS3408IT | × | √ |
| Avago SAS3416 iMR | × | √ |
| Avago SAS3416IT | × | √ |
| Avago SAS3508 | × | √ |
| Avago SAS3508 | × | √ |
| Avago SAS3516 | × | √ |
| RAID卡类型 | Legacy | UEFI |
|---|---|---|
| MSCC SmartRAID 3152-8i | √ | √ |
| MSCC SmartRAID 2100-8i | √ | √ |
| LSI 9305-24i | √ | √ |
| Avago MegaRAID SAS 9460-8i | × | √ |
| Avago MegaRAID SAS 9440-8i | × | √ |
| Avago MegaRAID SAS 9460-16i | × | √ |
若在UEFI模式下依旧无法识别,则进入RAID卡对应的PCIe端口,检查配置和link状态是否异常,具体端口与槽位对应关系需要查询产品文档或用户指南,如2288HV5的RAID扣卡对应CPU1 Port1C:
- 首先确认端口是否enable,link状态是否正常
- BIOS Configuration-Advanced- Socket Configuration-IIO Configuration -CPU1(CPU2) Configuration- 找到对应的port如Port1C
- 如果端口未使能,则优先改为enable或auto。若端口状态正常,但链路link状态异常,则说明RAID卡所在PCIe链路故障,如上图显示link Did Not Train
- 同时可在BMC的串口日志中查找RAID卡对应的PCIe建链过程是否有异常,例如下图中RAID卡对应的BDF为17/2/0,对应RAID卡启动带宽识别为Gen1,而正常为Gen3等
链路异常需携带备件进行排查验证:
- RAID扣卡:RAID卡(含超级电容、TFM卡)+主板+CPU1(低概率)
- RAID标卡:RAID卡(含超级电容、TFM卡)+IO模组+主板+CPU(低概率)
排查方法:
(1)优先将超级电容连同TFM卡拔掉检查是否能识别(排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况),能识别则更换超级电容(含TFM卡),若无超级电容备件则更换RAID标卡
(2)拔除超级电容后无法识别,则尝试重新插拔RAID卡是否能识别,能识别说明之前安装问题
(3)插拔之后依旧无法识别,RAID扣卡携带RAID卡和主板,RAID标卡携带RAID卡、IO模组、主板进行排查,优先更换RAID卡,其次是IO模组(适用于标卡),最后再更换主板(CPU引发概率较低,如果更换主板之后依然无法解决(X86机型),则继续更换对应的CPU,详见产品文档)
结论、解决方案及效果
- 优先排查兼容性、BIOS设置问题
- 其次按照优先级携带备件排查链路:
- RAID扣卡:RAID卡(含超级电容)+主板+CPU1(低概率)
- RAID标卡:RAID卡(含超级电容)+IO模组+主板+CPU(低概率)
注意:超级电容和TFM是配套更换的
典型场景3:RAID卡复位
排查发现有RAID卡复位(reset)的情况
问题现象描述
问题现象:OS的message日志中发现RAID卡在某个时间段有reset的打印。
关键词:
- 驱动名:3008卡:mpt3sas;3108、3408、3508 RAID卡:megaraid_sas
- 复位:fatal error、reset
关键过程、根本原因分析
RAID卡的复位有多种可能的情况,需要逐一排查:
排查兼容性:
- 首先确认配置的是服务器支持的RAID卡(部件兼容性)
- 其次排查RAID卡固件与驱动是否操作系统配套兼容(欧拉系统请联系产品团队确认),非欧拉系统使用上面的链接选择"操作系统兼容性",对应的产品型号、对应的RAID卡点击查询
- 找到对应的操作系统版本,点击驱动下载链接
- 找到当前最新的版本
- 点击进入,在最底部找到驱动配套表进行确认
- 如果驱动和固件不配套,优先将驱动与固件版本升级到对应的配套版本
- 对应的驱动和固件下载也在当前链接中
由于硬盘或链路故障导致IO超时,RAID卡会优先复位硬盘进行修复,若修复不成功会尝试复位RAID卡自身进行修复:
判断方式:
(1)确认复位时间附近是否有硬盘相关的告警产生,若有告警则根据硬盘告警分析硬盘和链路状态,更换硬盘或对应硬盘背板
硬盘smart信息确认:
告警硬盘smart信息获取路径:
BMC日志:dump_info\LogDump\storage\drivelog(若RAID卡支持带外管理功能)
或smartkit收集的OS日志:Datacollect\disk\disk_smart
或OceanStor 9000产品系统日志当前硬盘smart信息:DataCollect\disksmartinfo\smart0
或指令收集:smartctl –a /dev/盘符(盘符由lsscsi –g获取)
若是SAS HDD,则主要查看Elements in grown defect list或Total uncorrected errors是否有计数,若有则代表硬盘故障需要更换
- 若是SATA HDD,则一般确认Reallocated_Sectors_Count、Reported_Uncorrectable_Error、Current_Pending_Sector、Offline_Uncorrectable其中是否有一项或多项有计数,如有也优先更换硬盘,如没有则怀疑链路问题。另外,若UltraDMA_CRC_Error_Count有大量计数,也可判定为硬盘链路问题,需要优先更换背板
(2)若无告警,也首先确认复位前RAID卡日志是否有硬盘或硬盘链路相关的报错打印,若有相关打印则说明是硬盘或硬盘链路故障引起的RAID卡复位修复,只需更换硬盘或链路即可
在复位前是否有某块硬盘相关的异常打印:如下图中0号槽位(s0)有command timeout、单盘reset(path 3 reset)
或有指向硬盘的sense打印03/11或04/44
以上打印的情况优先更换硬盘,如果没有03/11或04/44相关打印,则需要将槽位对应的链路都携带:涉及硬盘与硬盘背板(或IO模组)
如果无硬盘相关问题,则需要排查复位前后RAID卡日志中有无堆栈打印:
关键字:Assertion failure
遇到此情况可以利用Assertion failure这一行的日志打印搜索案例集进行匹配,一般情况下均需要升级FW或更换RAID卡解决
若无堆栈打印或无已知匹配案例,则优先升级RAID卡FW到当前最新版本进行观察:
- 如果当前已经是最新版本,则需要将相应日志反馈给技术支持,需要联合厂商进行进一步分析
- 如果出现多次复位情况且FW已是最新版本,则直接更换RAID卡
结论、解决方案及效果
- 排查兼容性:使用兼容的RAID卡、操作系统、固件和驱动版本
- 硬盘故障或链路故障:更换硬盘或链路
- FW BUG:配套升级固件与驱动
- RAID卡故障:更换RAID卡