当前,全球AI竞争日趋激烈。在最高难度AI评测中霸榜,全球TOP10模型中8个未开源,核心基础设施遭遇封锁。AGI的火种正被少数力量垄断。我们的回应是:以开源生态打破壁垒,以实干人才推动普惠。
因此,我们正式启动“创智AI基础设施开源周”活动,发布五大核心项目,涵盖下一代训练框架、推理引擎、万卡集群通信库与智能运维系统。
一、项目亮点
在大规模分布式集群中,运维与排障一直是困扰研发和运维团队的核心难题。传统手段往往覆盖不全、定位效率低,面对“训练hang住、链路慢点、故障难复现”等问题,总是需要大量人工介入。
今天,我们正式开源 MegaTrace ——一款源于丰富集群调优经验,覆盖全链路的 一站式排障与性能分析工具集。
1.源于丰富的集群调优经验,打造完整的堵点排查工具集。
2.巡检机器人 Bot 已集成到学院算力平台,形成‘探测-巡检-告警-恢复’的闭环运维体系,覆盖 95% 的问题发现与定位。
3.MegaTrace 通过 API 拦截与关键路径分析,快速定位 Hang 与慢点,补齐剩余 5% 的检测能力。
开源代码仓库:https://github.com/sii-research/Megatrace
二、巡检机器人 Bot:闭环运维体系
MegaTrace 内置的 巡检机器人 Bot 已在创智学院算力平台稳定运行,形成了完整的 “探测 – 巡检 – 告警 – 恢复” 运维闭环:
1.探测:主动监测集群状态,提前发现潜在隐患;
2.巡检:自动运行健康检查,覆盖大多数常见问题;
3.告警:实时反馈异常,防止问题扩大化;
4.恢复:自动或半自动执行修复操作,减少人工值守。
借助这一体系,Bot 已经能够覆盖 95% 的问题发现与定位,大幅降低人工成本。
三、MegaTrace:补齐最后 5% 的检测盲区
对于剩下的疑难场景,MegaTrace 引入 API 拦截与关键路径分析,快速定位Hang与慢点,其核心工作流程分为 配置采集、在线监测、离线分析 三个阶段:
1. 配置信息获取
在分析之前,MegaTrace 会首先收集训练的基础配置信息,包括:
集群的总 GPU 数量;
并行切分大小(如 DP、PP、TP 维度);
batch 大小;
各类训练特性(feature)的开启情况。
这些信息构成后续分析的上下文,为性能判断与瓶颈定位提供参考基线。
2. 在线采集监测
在训练过程中,MegaTrace 通过 API 拦截 的方式,实时采集通信相关数据:
获取不同 stream 上通信原语的调用时间戳;
监控 WR(work request)下发过程中的 队列长度变化;
结合这些信息评估网卡带宽使用情况,从而判断 网络通信是否正常。
这一步确保我们能够在线捕捉通信行为,及时发现潜在的瓶颈或异常。
3. 离线分析诊断
采集到的数据会进入 离线分析阶段:
结合训练切分信息,MegaTrace 首先生成完整的 训练计算依赖图;
再根据 API 调用记录,标注每个 前向与后向阶段的执行时间;
最终引入 关键路径算法,结合依赖关系,精准识别 Hang 点或慢点。
这一整套机制,让 MegaTrace 能够从宏观到微观,既能发现 全局瓶颈,又能定位到 具体算子或链路,帮助研发快速解决问题。让 MegaTrace 补齐了 最后 5% 的检测能力,实现从常规巡检到深度诊断的全面覆盖。
简单来说,MegaTrace 就是把训练过程从“黑盒”变成“透明玻璃盒”,让研发与运维团队能够看清 谁在拖慢系统、哪里出了问题。
以一个3480卡的训练挂起定位流程举例:
在训练过程中我们突然遇到任务卡死,然后会有机器随机重启,现象很诡异,所有硬件监控指标都正常,难以定位根因;
根据通信调用的先后关系分析,我们发现训练最先出问题的节点Node188的第二张GPU,这张GPU上跑单卡任务也会出现卡死,踢掉这个节点任务正常运行
Megatrace可以有效的深挖出这种深层问题,可以支撑万卡集群99.9%的服务质量保障。
四、为什么选择 MegaTrace?
实战沉淀:源于真实集群调优经验,设计贴合运维场景;
自动闭环:实现从探测到恢复的全流程自动化;
全链路覆盖:95% 常规问题 + 5% 疑难问题,一个工具集解决。
MegaTrace 已在实际集群中完成验证,现在正式开源,欢迎体验、反馈与共建!
五、如何参与贡献?
我们非常期待社区开发者的参与,一起让 MegaTrace 更加强大:
提出问题:在 [GitHub Issues] 区提交使用中遇到的 Bug 或改进建议;
提交 PR:修复问题、优化代码、补充文档,都欢迎通过 Pull Request 贡献;
分享经验:在社区中交流使用案例与优化思路,帮助更多人受益。
无论是 Bug 修复、功能开发还是文档完善,你的每一份贡献都将推动 MegaTrace 的成长。
上海创智学院携手来自31所顶尖高校的博士生及产业力量,以“建中研、干中学”人才培养模式,培养具备国际竞争力的实战型AI基础设施人才!开源周只是起点,开源生态现已启航,让我们以开放协作,加速技术跃迁,诚邀更多师生和全球开发者加入我们,共铸开放、创新的普惠AI基座!