博客详情页
  • 下载
  • 开发
  • 文档
  • 学习
  • 支持
  • 社区
  • 动态
中文EN
中文EN
Open AI Infra Summit 2026|openUBMC以架构创新和开源标准破解智算集群运维痛点

Open AI Infra Summit 2026|openUBMC以架构创新和开源标准破解智算集群运维痛点

技术干货

2026/05/06
黄晗

分论坛回顾

2026年4月9-10日,2026 Open AI Infra Summit 在北京举办。 openUBMC 社区技术委员会委员 & iBMC 集群管理软件专家黄晗,在超节点生态分论坛发表《基于 openUBMC 打造超节点硬件智能管理平台》主题演讲,分享开源体系下硬件智能管理最新实践,以标准化方案破解智算集群运维痛点,引发行业广泛关注。

alt text

智算规模化发展,运维标准供需失衡凸显

随着智算集群快速扩张,硬件模块化、供应多元化趋势明显,也对 BMC 带外管理提出新要求:

以灵衢为代表的高速互联技术普及,推动超节点Scale-up架构快速落地,统一内存语义技术进一步实现硬件资源池化,BMC随之面临可组合解耦基础设施(CDI)的管理挑战,以Redfish、Sunfish等BMC北向模型,正在突破传统单机管理的物理边界,为超节点多设备协同管理提供了技术基础。

alt text

与此同时,用户对统一设备北向运维接入能力的需求日益迫切,但现有标准难以适配新一代智算硬件的复杂场景:整机与部件厂商虽希望通过差异化构建竞争力,却因缺乏统一规范导致北向接口参差不齐,形成用户统一运维诉求与厂商差异化规划之间的行业鸿沟。

以互联网为代表的客户趋向硬件与BMC固件规范白盒化,却未形成全行业统一标准,一方面导致各厂商需基于同一代码基线适配多套客户规范,代码复用率极低,研发与适配成本居高不下;另一方面,用户运维系统仍需针对设备能力差异做定制化适配(如屏蔽不支持的功能),进一步推高设备接入与运维开发成本。

alt text

以服务器硬件指标采集为例,不同客户在采集范围上各有定义,采集方式也呈现碎片化:

采集范围:无统一界定

alt text

采集方式:

  • IPMI传感器
  • 自定义rest接口下载csv文件
  • 自定义redfish查询接口
  • 其他定制化方式

构建超节点多BMC协同底座,CDI资源透明管理

针对超节点管理的核心痛点,openUBMC 从软件架构层面给出针对性解决方案:

统一超节点计算域与交换域的设备管理对象模型,并基于统一模型实现高性能数据同步,进而实现超节点系统在资产、故障、能效等维度的多节点协同管理,让 CDI 资源可被上层运维系统透明感知、统一调度。 图三

以标准筑基,以社区赋能 AI 智能运维

面对行业痛点,openUBMC 以开源生态为底座,从标准协同与技术实现双重维度给出系统性解决方案:

  • 接轨国际标准 openUBMC社区提前布局技术预研,平台满足国际主流标准,为北向运维接入提供稳定、通用的基础能力。
  • 共建行业统一标准 联合行业标准组织、用户、整机及部件厂商共建统一北向标准,当前正在围绕灵衢部件、DPU等关键部件制定管理接口规范,同步搭建测评认证体系,相关标准在社区优先落地并实现 100% 复用,以“社区 + 标准”推动产业协同创新。
    alt text
  • 标准化遥测接口,赋能 AI 运维闭环 通过标准化流式遥测接口与统一指标定义,用户运维系统可以无缝对接不同厂商的设备,采集高精准、低时延的数据,支撑 AI 运维系统完成 “收集–分析–决策–执行”全流程闭环。
    alt text
    数据主动推送,重构硬件运维效能
    alt text

相比传统轮询模式,openUBMC采用的主动推送模式优势显著:

  • 分层架构,被采集侧主动上报,无需采集侧频繁轮询;
  • 采集侧与被采集侧仅一次订阅交互,大幅降低交互开销;
  • 亚秒级实时采集并推送,无采样盲区,保障数据实时性;

通过数据主动推送,用户运维系统可实现从硬件到固件的全方位可观测,经过LLM训练推理,硬件运维管理从传统的故障被动响应升级为主动预防,同时支撑系统负载与能耗的深度调优,为智算集群高效稳定运行提供坚实保障。

携手共筑硬件管理统一标准

openUBMC 社区诚邀整机、部件、云厂商及行业用户:

携手共建算力基础设施硬件管理北向统一标准,使能产业高质量发展!

欢迎加入openUBMC社区Interface SIG,共商标准、共建生态、共启智算硬件管理新未来。

[Copyright] Copyright © 2026 openUBMC Community. This article was first published by the openUBMC Community. Reproduction is welcomed under CC-BY-SA 4.0. When reproducing, please prominently note the source in the text and retain the original article link and author information.

[Disclaimer] The views expressed in this article are solely those of the author and do not represent the stance of this website. This website remains neutral regarding the statements and opinions presented and provides no express or implied warranty as to the accuracy, reliability, or completeness of the content. This article is intended for reference only, and all legal responsibilities arising therefrom shall be borne by the reader.

About the Author

黄晗

openUBMC 社区技术委员会委员& iBMC 集群管理软件专家