《解放日报》:国内首个开源高质量音视频生成模型亮相,解放日报专访邱锡鹏解读 “最大的不同”

来源:解放日报作者:黄海华发布时间:2026-02-28 09:43:50阅读量:12

媒体视角

今年2月,字节跳动发布的音视频生成模型Seedance2.0引发广泛关注,马斯克更是在社交平台X(原推特)发表评论“发展速度太快了”。值得关注的是,就在此前不久,上海创智学院联合模思智能发布国内首个开源高质量音视频同步生成模型MOVA,填补了国内开源大模型在音视频同步生成基础模型领域的空白。


最大的不同


当下,全球音视频生成技术已成为新一轮科技竞争焦点。MOVA与Seedance2.0均实现了画面与声音的同步输出,实现了真正意义上的音画一体生成。不过从单段生成效果来看,二者仍存在一定差距:MOVA支持最长8秒、720p分辨率的视频生成,而Seedance2.0则可达到15秒时长与2K高清分辨率。目前音视频赛道中,国内外绝大多数模型均选择闭源,技术路线也不公开,Seedance2.0便不对外提供模型文件、不开放下载、不允许本地部署。“完全开源,是MOVA与这些模型最大的不同。”邱锡鹏表示,选择开源是为了技术普惠,唯有开源才能吸引更多人参与研究,既推动技术快速进步,也助力国内开源生态建设。


正是基于这一理念,MOVA不仅完整开源360p、720p两个基础模型,还开源了微调、推理、生成工作流在内的全链路组件,具备高质量端到端音视频生成能力,支持二次开发、本地部署和学术研究。不管是做动漫还是游戏,都能以MOVA为“底座”,按自己的需求和风格进一步优化,适合中小团队、垂直场景的低成本落地。这并非邱锡鹏团队首次布局开源——2023年2月,复旦大学发布类ChatGPT对话式大模型MOSS,时隔两个月便正式开源,成为国内首个支持搜索、画图、计算等插件的开源对话模型。除了全栈开源,MOVA还采用混合专家创新架构,兼顾生成质量与推理效率。



MOVA1.5将启

据透露,MOVA1.5预计在3月底推出,性能会有更大的提升。“我们把MOVA开源,相当于第一个公开完整的音视频同步生成模型技术路线,包括数据合成、模型训练和模型推理等关键步骤,给大家作一个参考,复现出近似工业级的音画效果。”邱锡鹏说。在他看来,当前全球音视频生成模型虽不断涌现,但整体仍处于起步阶段,未来竞争必将愈发激烈。行业关键突破点,集中在模型智能提升的核心命题上——与文本领域已确立的规模定律不同,音视频领域目前尚未发现类似规律,即尚未证实能否通过让模型“观看”视频、学习视频数据,实现自身智能显著提升,这也是行业亟待探索的核心方向。


邱锡鹏认为,音视频生成赛道才刚刚开启,未来仍有极大探索空间,其中之一便是通过优化视频数据指标,提升模型治理水平、助力智能迭代。他心中理想的视频智能模型,应能像人类一样通过理解视频感知世界,让视频成为继文本之外,模型获取智能的第二个核心来源,这与他团队提出的“视频思考”新范式高度契合,即借助视频生成模型整合动态推理与多模态融合,贴合人类认知逻辑,挖掘视频模态的智能潜力。


“视频生成本身只是一项基础任务,其核心价值在于通过这一任务赋能模型,推动模型向更高层次智能演进。当视频模型实现真正的智能提升后,最终将指向通用人工智能,使其能够比当前文本模型更深刻、更全面地理解世界。”邱锡鹏表示。