Megrez 2.0发布,本征架构突破端模型不可能三角,以终端算力撬动云端智能

2025.07.31阅读量:12

科研进展

终端是实现数字智能和生命智能自由交互的重要接口,持续帮助人类拓展生产能力的边界。然而当下,终端智能面临着“能效-空间-智能”的不可能三角:以DeepSeek-R1为例,其参数规模高达6710亿,超出了大部分笔记本电脑的内存容量;即使勉强在一台笔记本电脑上成功运行满血版模型,理论上坚持不到9分钟就会耗尽电池;如果通过蒸馏,将满血版模型压缩到更小尺寸,此时的精度损失又可能满足不了智能水平的要求。


针对上述挑战,上海创智学院联合无问芯穹发布了终端本征大模型Megrez2.0,它在实现21B参数,也就是云级智能水平的同时,将实际计算量控制在3B、内存占用控制在7B规模,从而可以完美地适配当下的各类终端设备,成功打破了终端“能效-空间-智能”的不可能三角。




终端本征架构

打破“能效-空间-智能”的不可能三角


传统稠密模型在端侧的黄金尺寸是3B,这个尺寸即可以较好的契合端侧有限的算力和存储,又具有基础的智能水平。但若继续增大尺寸,端侧的推理速度会快速下降。


如何让3B的算力发挥更大的智能?主流的方式是MoE,即通过参数冗余和动态激活,为模型精度加杠杆。例如一个总参数量21B,激活参数量3B大小的模型,虽然只有3B计算量,但理论精度潜力高达21B,实际也有7~14B的精度表现。但这21B的总参数量对于端侧太过巨大,如果全部放在外存,外存较低的带宽速率会带来Decode速度指数级下降,而如果限制模型激活参数的locality将部分参数放入内存,又会与MoE的动态多样性与平衡性相违背,带来精度下降。


上海创智学院与无问芯穹本次提出的终端本征架构,引入了重参数机制,将若干个相邻MoE层划成一组,复用Expert专家参数。这样一个原本30层MoE层的模型,原始总参数量21B。现在每3层共享参数相互复用,模型的实际总参数量下降到21/3即7B大小,但激活可用的专家池空间仍为21B。




此外,本次发布的Megrez 2.0为Preview版本,虽然训练数据量只有5T Tokens,但已表现出优异的精度潜力。相较于国内外主流的端侧模型,Megrez 2.0模型速度相比同内存占用的模型快50%,精度比同尺寸稠密模型提升36%,内存则是比同精度模型节约75%,真正做到高能效、少内存、高智能。



终端本征智能应用落地

打破AI的时空能动性边界


当端侧级算力撬动起云级模型的智能水平,智能体等AI应用将得以在端侧释放更大的能动性。由Megrez2.0加持的终端设备,代理任务处理准确率高达95%,复杂代理任务端侧处理时间只需不到3分钟。此外,Megrez2.0还通过巧妙的工程设计,赋予终端设备更强的能动性,使设备在用户无感知的“休眠时段”里,也能持续创造价值。


发布会现场,Megrez2.0的研发团队为大家带来了一个令人激动的演示——用户在电脑合盖之前给出语音指令“整理今日会议记录”。电脑合盖后,系统自动调度闲置CPU周期执行后台任务,等任务完成后,则自动释放内存并转入待机。唤醒设备时,整理好的会议纪要已完整呈现在电脑上,算力亦能瞬时恢复满血状态,并且全程无唤醒、无联网、无发热。


Megrez 2.0 坚信,端侧智能体蕴藏着无限可能。它的推出,旨在解锁端侧智能的全新图景:让云端级智能真正落地于端侧设备。由此,智能体等先进 AI 应用得以在用户指尖、设备本地获得更多生长空间,随用户个性而进化捕捉用户更多偏好并完成智能自主进化,释放前所未有的能动性——自由、高效且无处不在。




2025年世界人工智能大会现场,Megrez2.0向现场观众展示了突破不可能三角的技术原理,引起了现场观众的强烈反响与高度关注。


Hugging Face:

https://huggingface.co/sii-research/InnoMegrez2-Preview

GitHub:

https://github.com/sii-research/InnoMegrez2