RAID卡常见问题指南
更新时间:2025/10/15
在Gitcode上查看源码

RAID卡典型问题处理案例

问题信息

表1-1 问题的基本信息

信息名称信息内容
问题来源
该案例适用于
输出时间
关键词RAID controller

场景分类

RAID卡告警
    | -- RAID卡故障 
    | -- RAID卡BBU故障      
    | -- RAID卡phy error增长
    | -- RAID卡与BMC通信异常
    | -- RAID卡UCE          
    | -- 获取RAID卡温度失败
RAID卡未识别
    | -- BMC无法识别
    | -- BIOS无法识别
RAID卡复位
    | -- 兼容性问题 
    | -- 硬盘故障 
    | -- RAID卡固件版本过低
    | -- RAID卡异常

典型场景1:RAID卡告警问题

RAID卡故障告警

问题现象描述

问题现象:BMC上报RAID卡故障:"RAID controller card 1 failure (BN:03027XWU).","2021-08-13 03:18:00","Asserted","0x06000005"。

关键过程、根本原因分析

BMC通过I2C获取RAID卡健康状态信息,如发现异常则上报。

  1. 首先排查驱动与固件是否兼容:
WARNING:Host driver needs to be upgraded to enable max MSIX vectors
WARNING:Host driver needs to be upgraded to enable extended LD support
DEAD:Fatal firmware error: Line 1573 in ../../raid/mpthostcmd.c

  1. 排查BIOS下RAID卡PCIe端口是否启用(部分BMC版本会上报为通信异常告警):
    • RAID卡对应的PCIe端口可通过产品文档查看,如2288HV5对应的RAID扣卡端口号为Port 1C

  1. 若非以上两种情况,则优先更换RAID卡。
    • 可通过BMC下dump_info\AppDump\StorageMgnt\ RAID_Controller_Info确认RAID卡状态

结论、解决方案及效果

排查驱动固件配套关系、BIOS端口配置,必要时更换RAID卡。

RAID卡BBU故障

问题现象描述

问题现象:BMC上报RAID卡BBU故障:"RAID card 1 BBU is fault (SN:024JMYCNL2010187, BN:03024JMY).","2021-07-31 14:25:48","Asserted","0x06000011"。

关键过程、根本原因分析

  1. BMC的sel日志下确认有RAID卡BBU告警事件

  1. 或系统下的RAID卡日志中确认BBU GOOD状态变为0

结论、解决方案及效果

RAID卡BBU状态由RAID卡上报给BMC进行告警,因此出现RAID卡BBU告警时可直接更换。

RAID卡phy error增长过快

问题现象描述

问题现象:BMC上报RAID卡expander某个phy的error增长过快告警:"RAID card (PCIe Card 4 (RAID)) expander1 PHY19 bit error increased too fast.","2021-06-04 12:38:51","Asserted","0x2B000003"。

关键过程、根本原因分析

  1. BMC的\dump_info\AppDump\sensor_alarm\eo_sel日志下确认有RAID卡phy error增长过快打印

  1. dump_info\LogDump\storage\phy\PCIe_Card_4_(RAID)(如果是扣卡:dump_info\LogDump\storage\phy\RAID_Card1)路径下查看PCIe_Card_4_(RAID)_Expander1_PHY_Error_Count(或 RAID_Card1_Expander1_PHY_Error_Count)中的phy error统计

  1. 此类phy error通常由链路质量问题导致,涉及硬盘背板、硬盘和IO模组,因此需要确认对应有error统计的phy对应的硬件。

Phy error的编码对应关系如下:

编码规则:N+2+2+8

  • 其中0~N-1对应物理硬盘槽位,例如24盘位对应0~23,36盘位对应0~35
  • 第N和N+1对应IO模组1的phy
  • 第N+2和N+3对应IO模组2的phy
  • 剩余8个phy对应RAID卡的上行phy 8盘位背板: | | | | | |--| --| --| --| |Phy0~7 |Phy8~9| Phy10~11 |Phy12~19| |硬盘背板Disk0~7| IO模组1(Disk40~41或Disk A~B)| IO模组2(Disk42~43或Disk C~D)| 与RAID相连|

12盘位背板:

Phy0~11 Phy12~13 Phy14~15 Phy16~23
硬盘背板Disk0~11 IO模组1(Disk40~41或Disk A~B) IO模组2(Disk42~43或Disk C~D) 与RAID相连

24盘位背板:

Phy0~23Phy24~25Phy26~27Phy28~35
硬盘背板Disk0~23IO模组1(Disk40~41或Disk A~B)IO模组2(Disk42~43或Disk C~D)与RAID相连

25盘位背板:

Phy0~24Phy25~26Phy27~28Phy29~36
硬盘背板Disk0~24IO模组1(Disk40~41或Disk A~B)IO模组2(Disk42~43或Disk C~D)与RAID相连

36盘位背板:

Phy0~35Phy36~37Phy38~39Phy40~47
硬盘背板Disk0~23 前置背板;Disk24~35后置背板IO模组1(Disk40~41或Disk A~B)IO模组2(Disk42~43或Disk C~D)与RAID相连

Case1:phy error对应的是前置(后置)硬盘背板的phy,需要判断硬盘smart信息是否存在异常: 路径:dump_info\LogDump\storage\drivelog 关键参数:SATA盘:若是SATA HDD则一般确认Reallocated_Sectors_Count, Reported_Uncorrectable_Error, Current_Pending_Sector, Offline_Uncorrectable其中是否有一项或多项有计数,如有优先更换硬盘,如没有则更换对应的前置(后置)硬盘背板,另外若UltraDMA_CRC_Error_Count一项有大量计数也可判定是硬盘链路问题,则需要优先换背板; 若是SAS HDD则主要查看Elements in grown defect list或Total uncorrected errors是否有计数,若有则代表硬盘故障优先更换,否则优先更换背板。

Case2:phy error对应的是IO模组的phy,同样首先检查IO模组上的硬盘smart信息是否异常(一般对应的是系统盘) 路径:dump_info\LogDump\storage\drivelog 如果smart信息异常优先更换硬盘; 如果smart信息正常则链路涉及IO模组与前置硬盘背板,优先更换IO模组 Case3:phy error对应的是RAID卡上行phy, 此时对应的是RAID卡与前置背板之间的链路,建议携带RAID卡、SAS线缆与背板进行排查,根据经验可以优先更换硬盘背板。

硬盘背板对应phy有errorIO模组1对应phy有errorIO模组2对应phy有errorRAID卡对应phy有error
硬盘、背板硬盘、IO模组1、前置背板硬盘、IO模组2、前置背板前置背板、SAS线缆、RAID卡

结论、解决方案及效果

Case1:硬盘或背板 Case2:硬盘或IO模组或背板 Case3:背板或SAS线缆或RAID卡

RAID卡与BMC通信异常

问题现象描述

问题现象:BMC上报RAID卡与BMC通信丢失故障:

  • RAID扣卡:"Communication between the iBMC and RAID controller card 1 failed (SN:023XNACNK8000664, BN:03023XNA).","2021-09-13 11:05:26","Asserted","0x06000025"
  • RAID标卡:"Communication between the iBMC and PCIe card 3 (9440-8i) failed.","2021-08-03 13:21:31","Asserted","0x08000095"

关键过程、根本原因分析

BMC无法通过I2C获取RAID卡信息时会上报告警,可能是I2C链路故障,或RAID卡自身状态异常未对I2C进行应答。

  1. 对于新交付的设备,首先确认BIOS下RAID卡PCIe端口是否启用:

    • RAID卡对应的PCIe端口可通过产品文档查看,如2288HV5对应的RAID扣卡端口号为Port 1C
  2. 确认BIOS的DeviceManager下RAID卡驱动是否有not healthy的状态,一般为RAID卡初始化异常导致

  • 如果存在not healthy,需根据提示进行修复
  • 所有类型的RAID卡均有not healthy的相关修复指导

如Avago SAS3508卡:

  1. 如果在BIOS下没有not healthy的选项,或修复后告警未消除,则说明BMC与RAID卡之间的I2C链路存在故障:

    (1)如果是新开局设备,可能存在装配问题,建议下电插拔RAID卡,重新上电观察,如告警消除则继续使用

    (2)如果插拔后告警继续,或非新开局设备,则需要申请备件进行排查更换:

    • Case1:RAID扣卡:申请主板与RAID卡,优先更换RAID卡
    • Case2:RAID标卡:申请主板、RAID卡与IO模组(若RAID标卡所在槽位为Slot3对应IO模组1,通常为系统盘所在模组;若RAID标卡所在槽位为Slot4、5、6则对应IO模组2,通常为网卡所在模组),优先级:RAID卡>IO模组>主板

结论、解决方案及效果

  1. 开启BIOS对应RAID卡的PCIe端口
  2. 修复RAID卡驱动
  3. 更换链路中的备件,涉及RAID卡、主板以及IO模组(若是RAID标卡)

RAID卡触发Uncorrectable error

问题现象描述

问题现象:BMC上报RAID卡触发Uncorrectable error:

  • RAID扣卡:"RAID Card","The RAID controller card 1 triggered an uncorrectable error, (SN:033EFTBBL1023538, BN:03024JMY).","2021-07-10 07:53:06","Asserted","0x06000007"
  • RAID标卡:"PCIE Card","The PCIE Card 3 (9440-8i) triggered an uncorrectable error.","2021-07-10 07:53:06","Asserted","0x80000001"

关键过程、根本原因分析

  1. BMC sel日志查看RAID卡告警时间点

  1. BMC maintenance日志中查看对应时间点的RAID卡相关告警信息,如有明确指向(如RAID卡电源异常pg_pptv),则直接优先更换RAID卡

如无特别指向(如只有心跳丢失),则继续排查

  1. BMC fdm日志分析告警时间附近是否有Fatal error、Uncorrectable error

  1. RAID卡除了自身故障会触发UCE外,槽位或CPU问题也可能触发RAID卡上报UCE。

    涉及硬件包括:RAID卡、链路(主板、IO模组)、CPU,不同产品需根据各自的产品文档或用户手册确认所插槽位对应的CPU。

    常见机型:

机型RAID扣卡RAID标卡(SLOT 4 5)RAID标卡(SLOT 6 7 8)
RH2288 V3CPU1CPU1CPU2
5288 V3CPU1CPU1CPU2
机型RAID扣卡RAID标卡(SLOT 3)RAID标卡(SLOT 4 5 6)
2288H V5CPU1CPU1CPU2
5288 V5CPU1CPU1CPU2
Taishan 200 2280CPU1CPU1CPU2
Taishan 200 5280CPU1CPU1CPU2
  1. 根据现网情况携带备件进行排查:

    优先级:

    • 扣卡:RAID卡>主板>CPU
    • 标卡:RAID卡>IO模组>主板>CPU

结论、解决方案及效果

按优先级更换硬件:

  • 扣卡:RAID卡>主板>CPU
  • 标卡:RAID卡>IO模组>主板>CPU

RAID卡温度获取失败

问题现象描述

问题现象:BMC上报RAID卡温度获取失败:"RAID Card","Failed to obtain data of the RAID controller card 1 temperature.","2021-07-10 07:53:06","Asserted","0x0600000D"

关键过程、根本原因分析

  1. 如果只有RAID卡温度告警,说明只有与RAID相连的I2C无法获取RAID卡温度,建议优先更换RAID卡,并准备主板备件

  1. 如果除了RAID卡之外还有其他无法获取温度的告警,则可能是某个I2C链路故障导致I2C总线异常,使总线上的所有温度都无法获取。此时需要携带对应的所有备件逐一排查

结论、解决方案及效果

  • 只有RAID卡无法获取温度:优先更换RAID卡,并准备主板备件
  • 除了RAID卡之外同时还有其他无法获取温度信息的告警:联系技术支持,携带所有涉及的器件进行排查

典型场景2:无法识别RAID卡

BMC界面无法识别RAID卡

问题现象描述

问题现象:BMC的web界面无法看到RAID卡,在BMC日志card_info下也无法识别

关键过程、根本原因分析

BMC未能识别RAID卡说明BMC未能获取到RAID卡相关信息:对于RAID扣卡,BMC通过I2C通道获取,因此BMC和BIOS对RAID卡的识别是相互独立的链路;对于RAID标卡,BMC通过BIOS上报的BDF号识别,如果未能识别则是PCIe链路问题。

  1. 首先确认RAID卡是否在服务器兼容性列表中,未在兼容性列表中的说明未进行过兼容性测试,可能存在兼容性问题

  2. 若兼容性正常,则需要排查链路:

    RAID扣卡:

    涉及硬件:RAID卡(含超级电容与TFM)+主板

    排查建议:

    (1)优先将超级电容连同TFM卡拔掉检查是否能识别(排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况),能识别则更换超级电容(含TFM卡)

    (2)拔除超级电容后无法识别,则尝试重新插拔RAID卡是否能识别,能识别说明之前安装问题

    (3)插拔之后依旧无法识别,建议携带RAID卡与主板进行排查,优先更换RAID卡

    RAID标卡:

    涉及硬件:RAID卡(含超级电容与TFM卡)+IO模组+主板+CPU

    排查建议:

    (1)优先将超级电容连同TFM卡拔掉检查是否能识别(排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况),能识别则更换超级电容(含TFM卡),若无超级电容备件则更换RAID标卡

    (2)拔除超级电容后无法识别,则尝试重新插拔RAID卡是否能识别,能识别说明之前安装问题

    (3)插拔之后依旧无法识别,建议携带RAID卡、IO模组、主板进行排查,优先更换RAID卡,其次是IO模组,最后再更换主板(CPU引发概率较低,如果更换主板之后依然无法解决(X86机型),则继续更换对应的CPU,详见产品文档)

    部分机型对应关系:

机型RAID标卡(SLOT 4 5)RAID标卡(SLOT 6 7 8)
RH2288 V3CPU1CPU2
5288 V3CPU1CPU2
机型RAID标卡(SLOT 3)RAID标卡(SLOT 4 5 6)
2288H V5CPU1CPU2
5288 V5CPU1CPU2
Taishan 200 2280CPU1CPU2
Taishan 200 5280CPU1CPU2

结论、解决方案及效果

  1. 优先排查兼容性
  2. 其次按照优先级携带备件排查链路:
    • RAID扣卡:RAID卡(含超级电容)+主板
    • RAID标卡:RAID卡(含超级电容)+IO模组+主板+CPU(低概率)

注意:超级电容和TFM是配套更换的

BIOS界面无法识别RAID卡

问题现象描述

问题现象:BIOS侧无法识别到RAID卡

关键过程、根本原因分析

BIOS下未能识别到RAID卡的原因较多,可能是链路问题、配置问题、兼容问题,并且RAID扣卡可能存在BMC侧能识别而BIOS侧无法识别的情况。

  1. 首先确认RAID卡是否在服务器兼容性列表中,未在兼容性列表中的说明未进行过兼容性测试,可能存在兼容性问题

  2. 若兼容性正常,则需要确认RAID卡支持的BIOS类型,部分RAID卡只支持在UEFI模式下进行配置,但都支持两种模式的启动

RAID卡类型LegacyUEFI
LSI SAS3004iMR
LSI SAS3008IR
LSI SAS3008IT
LSI SAS3108
Avago SAS3408iMR×
Avago SAS3408IT×
Avago SAS3416 iMR×
Avago SAS3416IT×
Avago SAS3508×
Avago SAS3508×
Avago SAS3516×
RAID卡类型LegacyUEFI
MSCC SmartRAID 3152-8i
MSCC SmartRAID 2100-8i
LSI 9305-24i
Avago MegaRAID SAS 9460-8i×
Avago MegaRAID SAS 9440-8i×
Avago MegaRAID SAS 9460-16i×
  1. 若在UEFI模式下依旧无法识别,则进入RAID卡对应的PCIe端口,检查配置和link状态是否异常,具体端口与槽位对应关系需要查询产品文档或用户指南,如2288HV5的RAID扣卡对应CPU1 Port1C:

    • 首先确认端口是否enable,link状态是否正常
    • BIOS Configuration-Advanced- Socket Configuration-IIO Configuration -CPU1(CPU2) Configuration- 找到对应的port如Port1C

  • 如果端口未使能,则优先改为enable或auto。若端口状态正常,但链路link状态异常,则说明RAID卡所在PCIe链路故障,如上图显示link Did Not Train
  • 同时可在BMC的串口日志中查找RAID卡对应的PCIe建链过程是否有异常,例如下图中RAID卡对应的BDF为17/2/0,对应RAID卡启动带宽识别为Gen1,而正常为Gen3等

链路异常需携带备件进行排查验证:

  • RAID扣卡:RAID卡(含超级电容、TFM卡)+主板+CPU1(低概率)
  • RAID标卡:RAID卡(含超级电容、TFM卡)+IO模组+主板+CPU(低概率)

排查方法:

(1)优先将超级电容连同TFM卡拔掉检查是否能识别(排除超级电容或TFM卡故障导致RAID卡供电电源异常的情况),能识别则更换超级电容(含TFM卡),若无超级电容备件则更换RAID标卡

(2)拔除超级电容后无法识别,则尝试重新插拔RAID卡是否能识别,能识别说明之前安装问题

(3)插拔之后依旧无法识别,RAID扣卡携带RAID卡和主板,RAID标卡携带RAID卡、IO模组、主板进行排查,优先更换RAID卡,其次是IO模组(适用于标卡),最后再更换主板(CPU引发概率较低,如果更换主板之后依然无法解决(X86机型),则继续更换对应的CPU,详见产品文档)

结论、解决方案及效果

  1. 优先排查兼容性、BIOS设置问题
  2. 其次按照优先级携带备件排查链路:
    • RAID扣卡:RAID卡(含超级电容)+主板+CPU1(低概率)
    • RAID标卡:RAID卡(含超级电容)+IO模组+主板+CPU(低概率)

注意:超级电容和TFM是配套更换的

典型场景3:RAID卡复位

排查发现有RAID卡复位(reset)的情况

问题现象描述

问题现象:OS的message日志中发现RAID卡在某个时间段有reset的打印。

关键词:

  • 驱动名:3008卡:mpt3sas;3108、3408、3508 RAID卡:megaraid_sas
  • 复位:fatal error、reset

关键过程、根本原因分析

RAID卡的复位有多种可能的情况,需要逐一排查:

  1. 排查兼容性:

    • 首先确认配置的是服务器支持的RAID卡(部件兼容性)
    • 其次排查RAID卡固件与驱动是否操作系统配套兼容(欧拉系统请联系产品团队确认),非欧拉系统使用上面的链接选择"操作系统兼容性",对应的产品型号、对应的RAID卡点击查询

  • 找到对应的操作系统版本,点击驱动下载链接

  • 找到当前最新的版本

  • 点击进入,在最底部找到驱动配套表进行确认

  • 如果驱动和固件不配套,优先将驱动与固件版本升级到对应的配套版本
  • 对应的驱动和固件下载也在当前链接中
  1. 由于硬盘或链路故障导致IO超时,RAID卡会优先复位硬盘进行修复,若修复不成功会尝试复位RAID卡自身进行修复:

    判断方式:

    (1)确认复位时间附近是否有硬盘相关的告警产生,若有告警则根据硬盘告警分析硬盘和链路状态,更换硬盘或对应硬盘背板

    硬盘smart信息确认:

    告警硬盘smart信息获取路径:

    • BMC日志:dump_info\LogDump\storage\drivelog(若RAID卡支持带外管理功能)

    • 或smartkit收集的OS日志:Datacollect\disk\disk_smart

    • 或OceanStor 9000产品系统日志当前硬盘smart信息:DataCollect\disksmartinfo\smart0

    • 或指令收集:smartctl –a /dev/盘符(盘符由lsscsi –g获取)

    • 若是SAS HDD,则主要查看Elements in grown defect list或Total uncorrected errors是否有计数,若有则代表硬盘故障需要更换

  • 若是SATA HDD,则一般确认Reallocated_Sectors_Count、Reported_Uncorrectable_Error、Current_Pending_Sector、Offline_Uncorrectable其中是否有一项或多项有计数,如有也优先更换硬盘,如没有则怀疑链路问题。另外,若UltraDMA_CRC_Error_Count有大量计数,也可判定为硬盘链路问题,需要优先更换背板

(2)若无告警,也首先确认复位前RAID卡日志是否有硬盘或硬盘链路相关的报错打印,若有相关打印则说明是硬盘或硬盘链路故障引起的RAID卡复位修复,只需更换硬盘或链路即可

在复位前是否有某块硬盘相关的异常打印:如下图中0号槽位(s0)有command timeout、单盘reset(path 3 reset)

或有指向硬盘的sense打印03/11或04/44

以上打印的情况优先更换硬盘,如果没有03/11或04/44相关打印,则需要将槽位对应的链路都携带:涉及硬盘与硬盘背板(或IO模组)

  1. 如果无硬盘相关问题,则需要排查复位前后RAID卡日志中有无堆栈打印:

    关键字:Assertion failure

遇到此情况可以利用Assertion failure这一行的日志打印搜索案例集进行匹配,一般情况下均需要升级FW或更换RAID卡解决

  1. 若无堆栈打印或无已知匹配案例,则优先升级RAID卡FW到当前最新版本进行观察:

    • 如果当前已经是最新版本,则需要将相应日志反馈给技术支持,需要联合厂商进行进一步分析
    • 如果出现多次复位情况且FW已是最新版本,则直接更换RAID卡

结论、解决方案及效果

  1. 排查兼容性:使用兼容的RAID卡、操作系统、固件和驱动版本
  2. 硬盘故障或链路故障:更换硬盘或链路
  3. FW BUG:配套升级固件与驱动
  4. RAID卡故障:更换RAID卡