上海创智学院开源千卡级RL框架:突破扩展瓶颈,打造强化学习领域的“中国答案”

2025.07.29阅读量:12

科研进展

上海创智学院开源千卡级RL框架siiRL:突破扩展瓶颈,打造强化学习领域的“中国答案”​——产学研融合团队破解下一代AI推理的军备竞赛难题

​RL Scaling:大模型竞赛的“胜负手”​,闭源遏制未来 AI 生态发展

当DeepSeek R1、Claude 4、Gemini 2.5、Kimi K2、Qwen3 等持续刷新推理性能,一个共识已然明确:​强化学习(RL)的扩展能力正成为AGI竞争的核心壁垒。


当xAI动用20万GPU集群训练Grok 4,一经发布就霸榜全球最高难度AI评测(人类博士级考题),这个榜单揭示了一个残酷的现实:在全球TOP10模型中,7个不开源,核心技术全面封锁。这好比为全球创新者们关上了大门——最好的模型闭源,最好的基础设施闭源,AGI的火种,正被少数人垄断。而上海创智学院的使命是要培养全球最顶尖的 AI 人才,打破垄断,实现 AI 的普惠价值。



图 1:“人类的最后考试”排行榜


然而传统RL开源框架在千卡规模下已面临致命瓶颈,万卡级的超大规模训练情况则更不容乐观——中心化架构引发内存溢出、通信阻塞、迭代效率骤降,严重制约创新速度。



图 2:传统单控制器架构瓶颈。所有数据操作(初始加载、中间数据流转)都需经过中心控制器,导致严重的通信开销和扩展限制。


​siiRL:全分布式架构的颠覆性突破

上海创智学院AI Infra团队日前正式开源siiRL框架​,以三大创新设计破解行业痛点:

  1. 分布式核心:天生团队作战,完全分布式设计,数据加载、计算、存储分工合作,效率高,轻松扩展到千卡甚至未来万卡集群!

  2. DAG驱动工作流​:算法逻辑与硬件资源解耦,支持研究员灵活定义强化学习流程,​且能更方便的支持多智能体协同训练。

  3. “中国心,中国造!”:原生实现了对国产芯片的兼容与支持。



图 3:siiRL架构概览


技术论文: https://arxiv.org/abs/2507.13833

开源代码仓库:https://github.com/sii-research/siiRL



​性能碾压:数据说话

在涵盖7B到72B的多种模型尺寸和算法上,团队将 siiRL与当前主流的开源框架verl进行了全面对比。实验结果证明了 siiRL架构的巨大优势。


在PPO和GRPO算法的端到端训练中,siiRL的性能全面超越基线。尤其是在数据交互量更大的 GRPO 算法下,siiRL实现了高达 2.62倍 的吞吐提升 。值得注意的是,在训练72B模型时,基线框架在32卡配置下便遭遇了OOM错误,而siiRL则能轻松完成任务。


图 4:使用 PPO(上)和GRPO(下) 算法的端到端吞吐对比。siiRL(蓝色)在所有模型尺寸和GPU规模上均大幅领先基线框架 verl(红色)。


扩展性评估:千卡规模下的近线性扩展

得益于全分布式设计,siiRL在扩展至1024个GPU时仍表现出近乎完美的线性扩展能力 。在训练32B模型时,从64卡扩展至512卡,系统依然保持了80.5%的线性扩展效率。由于基线框架在同等规模下无法运行,我们转而测试其所能支持的最大训练批次大小,在此条件下,siiRL在VLM设定下实现了惊人的7倍速度提升。


图 5:siiRL在 VLM 任务上的扩展性评估,展示了从32到1024 GPU规模下的近线性扩展能力。

图 6: siiRL和基线框架在基线框架支持最大训练批次下对比实验,7B模型训练吞吐提升最高达到7倍。


数据密集型场景:优势愈发明显

在长上下文这类数据密集型任务中,siiRL的优势愈发凸显。随着上下文长度从8k增加到64k,siiRL相对于基线的领先优势从1.48倍扩大到 2.03倍 。这充分证明,数据通信量越大,siiRL的全分布式数据流设计的效率提升就越高。


图 7:长上下文性能评估。随着上下文长度增加,siiRL(蓝色)的性能优势愈发显著。


收敛性验证:性能提升,精度无损

为确保性能提升不以牺牲模型精度为代价,研究团队进行了收敛性对比实验。结果表明,在完全相同的超参数下,siiRL和基线框架的奖励值与熵值曲线几乎完全重合。这意味着,siiRL在将训练总耗时大幅减少的同时,保证了与基线完全一致的训练效果。


图 8:收敛性对比。siiRL与基线框架的训练曲线趋势一致,证明其优化不影响模型最终精度。


​育人特色:产学研共铸“中国方案”​

siiRL的诞生源自上海创智学院独特的​“产学研融合”培养体系​:

导师天团领衔​:团队融合顶尖学术资源与一线产业经验,成员涵盖万卡集群建设者、国产芯片优化专家、互联网大厂机器学习平台负责人等顶尖工程专家。

31所高校协同攻坚​:顶尖博士生与导师天团组成联合研发团队,直接参与国产芯片适配、分布式通信优化等卡脖子技术攻关。

场景驱动实战​:框架源自真实需求——千卡RL训练崩溃、多模态融合低效、多智能体协作缺失等痛点,均由学生在产业一线定位并破解。



开源宣言:解锁下一代AI的钥匙

“让大模型跑在中国芯,让AGI基石全球共享。”——上海创智学院AI Infra团队

作为国内首个支持超千卡RL训练的开源框架,siiRL践行​“全链路开放”承诺​:

✅100%代码开源(含昇腾NPU优化模块)
✅提供预编译Docker镜像,开箱即用
✅开放用户讨论群组



我们坚信​:打破闭源枷锁,才能让强化学习的火种点燃全球AGI创新引擎。