MOSS-VL × SGLang 全速突破:开源社区首个 Cross-Attention 多模态高效推理方案

2026.05.08阅读量:11

科研进展

继 4 月初MOSS-VL 视觉理解模型正式开源之后,上海创智学院、复旦大学 OpenMOSS 团队联合模思智能,并与 SGLang 团队协作,将 MOSS-VL 的高效推理路径完整合入 SGLang 主分支——这是开源社区首个面向 Cross-Attention 多模态架构的端到端高效推理方案。

这次更新不只让 MOSS-VL 自己跑得更快,更为整个 Cross-Attention 多模态生态补上了关键的推理基础设施——实测视频推理端到端吞吐较 Transformers 原生实现提升超 4.57 倍,在同样使用 SGLang 框架的条件下,推理性能较 Qwen3-VL 提升 5.48 倍

被忽视的工程鸿沟

视频理解、多图问答、流式实时交互——这些是多模态大模型最被看好的下一代应用形态。它们的共同特点是:视觉 Token 数量大、单次推理负载重、对延迟敏感。

支撑这些应用的真实生产环境,本质上是一场吞吐与延迟的博弈。这正是 SGLang、vLLM 等现代推理引擎的用武之地:通过 KV Cache 调度、连续批处理、PagedAttention / RadixAttention 等技术,把硬件压榨到极致。

但有一类模型,长期被排除在这场博弈之外。

主流推理引擎对Cross-Attention 多模态架构的支持长期缺位。换句话说,凡是采用「视觉编码器 + 语言模型 + 交叉注意力」路线的模型,都很难直接享受到现代推理引擎在吞吐、显存、并发上的优化红利。

MOSS-VL 正是这条路线的代表:面向长视频理解、多图输入、实时交互等复杂场景,以 Cross-Attention 解耦视觉编码与语言推理。这种架构在设计之初就为「轻推理」而生——但因为缺乏适配的高性能推理引擎,过去只能跑在 HF Transformers 上,架构红利无从兑现。

本次合入 SGLang 主分支,正是把这块基础设施补齐了。任何采用类似架构的项目,都能从这次更新中直接受益。

本次更新的三大核心贡献

Cross-Attention 推理路径 · 合入 SGLang 主分支

代码已通过 SGLang 官方 review 并合入主分支,无需打补丁。升级到最新版 SGLang,即可直接加载 MOSS-VL 系列模型,并享受全部推理优化(KV Cache 调度、连续批处理、RadixAttention 前缀复用、Tensor Parallelism 等)。

这填补了开源社区在 Cross-Attention 多模态高效推理上的空白,为同类架构提供了可直接复用的标准范式

基于FlashInfer 扩展的自定义Cross-Attention Mask

围绕 FlashInfer 核心算子,扩展支持自定义 Cross-Attention Mask 的灵活构造,更广泛地覆盖多轮对话与未来的 实时视频理解 场景。

为长上下文、流式交互打好底座——让多模态模型不止是「上传 → 回答」的工具,而能真正做到「持续看、持续理解、持续回应」

长请求下的显存释放优化

针对长请求场景,专门优化 mm_features 在 decode 阶段的释放策略,避免视觉输入相关的大 tensor 在生成阶段持续驻留显存。

长视频、多图、多轮对话场景下的显存压力显著缓解,单卡可承载的并发请求数明显提升——这是把「模型能跑」推进到「服务能扛」的关键一步。

一表看懂这次适配带了什么

架构 × 工程:MOSS-VL 凭什么跑得这么快

架构红利:Cross-Attention 让视觉与语言天然解耦。视觉 Token 不必被塞进语言端 sequence 统一计算,语言模型按需检索视觉信息——长视频、多图输入下,自注意力开销不会随视觉 Token 数量被无意义放大。这是 MOSS-VL 在设计之初就埋下的「速度伏笔」。

工程优化:SGLang 把这份架构红利完整推到极致。自定义 Cross-Attention Mask、长请求 mm_features 显存释放、KV Cache 调度优化叠加在一起,让架构上的「理应更快」真正落地为生产环境里的「确实更快」。

同等硬件、同等输入规模下,吞吐提升、延迟降低、显存占用优化。

视频推理端到端吞吐量(E2E TPS)实测

🚀 框架对比:与Transformers相比,MOSS-VL 适配 SGLang 后速度提升4.57 倍!

⚡️ 模型对比:同在SGLang 框架下, MOSS-VL端到端推理性能较 Qwen3-VL提升 5.48 倍!