把心里的故事拍出来:刘鹏飞团队携手Sand.ai开源世界首个"懂人"的音视频基座模型

2026.03.24阅读量:10

科研进展

每个人心里,都有一个还没被讲出来的故事。一段旋律,一个画面,一种说不清楚的情绪——那是人类最珍贵的东西。

从来不缺故事,只缺一个能把它拍出来的方式。帮每个人传递这些情感,才是AI真正应该做的事。你刚才看到的每一帧画面、每一个音符,来自同一个模型:daVinci-MagiHuman——国内首个、也是目前全球开源最"懂人"的音视频同时生成原生基座模型。做这件事,比它看起来要难得多

作品一《对白》

真正的音视频同时生成,从来不是把两个模型拼在一起那么简单。市面上大多数所谓的"音视频生成",走的是两条路:一条是让视频和音频串联输出,本质上是先后两次生成;另一条是拿一个成熟的视频生成模型,再接上一个语音后训练环节。这两种方式,都绕开了最难的那道门——从头音视频的联合预训练

真正的联合预训练,意味着从零开始,在同一个模型里,同时让视觉与声音相互理解、共同生长。这对数据规模、算力投入和架构设计的要求,是量级上的跨越。也正因如此,全球范围内走到这一步的团队,已所剩无几。

今天,来自上海创智学院刘鹏飞团队携手Sand.ai,正式开源 daVinci-MagiHuman(达芬奇·麦琪)——国内首个、也是目前全球开源最"懂人"的音视频同时生成原生基座模型(技术角度来说,开源界首个采用纯自注意力架构的开源音视频基座模型)。

“懂人”的三层含义

"行" ——技术上更擅长生成人物,这是最直观的能力层面,告诉读者"它做出来的人更像真人"

"互" ——蒸馏版本让实时交互成为可能,从单向生成变成了双向对话,这是体验层面的跨越

"意" ——更加智能体原生的音视频生成模型,通过赋予智能体脚手架(Agentic Harness),理解更多关于你的上下文,让创作真正贴近人的思想与情感。

我们相信AI科研的终极价值之一,是用技术理解并传递人类最珍贵的情感。现在,借助开源的daVinci-MagiHuman,每一个普通人都可以剪出一支属于自己的微电影,拍出心里一直想讲的那个故事。

1936年,图灵问:"机器能思考吗?"没有人知道,这个问题会把整个人类文明带向何处。不同的时代孕育了不同的伟大。图灵的时代有图灵的问题,香农的时代有香农的答案。而今天,AI正以前所未有的速度,把越来越多的不可能变成可能。我们相信,我们正处于人类历史上最伟大的时代。

作品二:《伟大的时代》

更多效果生成展示

daVinci-MagiHuman诞生于怎样一个背景?

视频生成已成为生成式 AI 最炙手可热的前沿方向。以 Sora、Veo、Seedance、Kling 为代表的闭源系统持续刷新技术上限,而 Wan、LTX-Video、HunyuanVideo 等开源项目也为社区提供了可用的替代方案。近期,业界焦点进一步聚焦到音视频联合同步生成——Veo 3、Sora 2、Seedance 2.0 和 Kling 3.0 等闭源模型已展示出令人惊艳的效果。开源侧虽有 LTX 和 Ovi 的早期探索,但在生成质量、架构通用性和部署效率上,差距依然显著。

问题的根源,在于现有开源方案在架构设计上的三重局限:

跨模态同步难:生成的视频和音频各自尚可,但要在时间和语义上精确对齐,仍是一大挑战。

架构扩展难:LTX-2 将音频视为从属信号通过跨注意力注入,Ovi 则通过复制整个视频骨干将音频提升为平行流,参数成本翻倍。两者都硬编码了固定的模态层级——每加一个新模态,就得做一次架构手术。

生成速度慢:现有的音视频联合生成模型往往因为模型架构设计复杂、难以充分优化,从而导致生成速度较慢,难以满足交互式场景的需求。

正式为了打破这三重壁垒,我们正式发布 daVinci-MagiHuman。

daVinci-MagiHuman核心技术揭秘?一个 Transformer 统管所有模态

daVinci-MagiHuman是开源界首个采用纯自注意力架构的开源音视频基座模型。以 150 亿参数的统一 Transformer 为核心,文本、视频、音频三种模态在同一骨干网络中作为一等公民联合建模,彻底告别跨注意力和模态专属分支。模型支持双模式推理:多步扩散模式最大化生成质量,少步模式在消费级 GPU 上实现近实时生成。在与 LTX-2.3、Ovi1.1的全面对比中,daVinci-MagiHuman 在主观人工评测和客观基准上均展现出领先的表现。模型权重和推理流程已全部开源

纯自注意力,模态无关:一个骨干,无限扩展

daVinci-MagiHuman 的设计理念极其简洁:一个骨干网络,所有模态一视同仁。模型核心是 150 亿参数、40 层 Transformer 堆叠。文本、视频、音频的 token 在同一自注意力框架内相互关注——没有跨注意力模块,没有模态专属分支,没有任何结构不对称性。

这意味着:扩展新模态只需引入新 token 和轻量适配器,无需对骨干做任何改动。与 LTX-2 的从属式跨注意力和 Ovi 的整体复制方案相比,这是根本性的架构优势。

无时间步去噪 + 修正流匹配

daVinci-MagiHuman 采用修正流匹配(Rectified Flow Matching)进行训练,对视频和音频隐变量执行速度预测,其中视频损失权重比音频高一个数量级。训练中每种模态独立采样状态(加噪、干净或丢弃),使模型无需架构变更即可在推理时灵活支持:

图生视频(Image-to-Video)

音频条件生成(Audio-Conditioned Generation)

无分类器引导(Classifier-Free Guidance)

低延迟级联流水线:每一阶段都为速度而设计

整条流水线围绕低延迟展开设计,每一阶段都经过针对性优化:

骨干网络采用纯自注意力,省去跨注意力带来的额外显存和计算开销,并通过自研推理编译引擎 MagiCompiler 进行全图编译——跨层算子融合、分布式通信优化以及 CUDA Graph 自动捕获与复用——进一步降低训推延迟;

超分辨率阶段完全在隐空间中执行——先通过三线性插值上采样隐变量,再仅用 5 步去噪即可提升至目标分辨率,计算量仅为基础阶段的一小部分;

VAE 解码器可选 TurboVAE 蒸馏模型,大幅降低解码延迟。

性能实测:全面对标开源 SOTA

我们从主观人工评测和客观基准评测两个维度进行了系统性测试,对标当前最具代表性的开源音视频模型:LTX-2.3和Ovi 1.1

主观评测:100 条内部数据集,人类评审打分

我们构建了 100 条样本的内部评测数据集,覆盖图文生音视频任务,由评审员从多个维度对各模型的生成结果进行盲评打分。

表 1:主观评测结果(100 条内部数据集,图文生音视频,人工评分)

客观评测

在视频质量评测方面,我们以 VerseBench 为测试基准,使用 VideoScore2 对画面质量、文本一致性和物理合理性三个维度进行评分,并与 Ovi 1.1 和 LTX 2.3 两款模型进行了对比。在音频质量方面,我们在 TalkVid-Bench 数据集上通过语音识别的字错率(WER)来衡量语音清晰度,该指标越低越好。

结果显示,davinci-MagiHuman 在画面质量和文本一致性两项指标上均取得了最优成绩,同时语音字错率仅为 14.60%,大幅优于 Ovi 1.1 的 40.45%,也优于 LTX 2.3 的 19.23%。在物理合理性方面,LTX 2.3 略胜一筹,但 davinci-MagiHuman 在该指标上依然表现出色,综合视频和音频两方面的质量来看,达到了最佳的整体均衡水平。

表 2:客观评测结果(VerseBench 基准测试)

在视频生成效率方面,我们测试了模型在不同分辨率下生成5秒视频的耗时。整个生成流程分为三个阶段:Base(基础模型去噪)、SR(超分)和Decode(VAE解码)。其中SR阶段仅在需要从超分时时启用,因此256p下无该阶段。1080p分辨率下,由于单卡显存不足以容纳完整模型,需开启CPU Offload才能在单卡上运行,导致速度大幅下降,因此采用CP = 2的双卡并行方案以获得更优的生成效率。

表3:生成5秒视频在不同分辨率下的各阶段耗时(单位:秒)

在上述测试中,基础生成阶段采用了经过 DMD2 蒸馏后的轻量模型,仅需 8 步去噪即可完成生成,同时解码阶段使用了 Turbo VAE 高速解码器。结果表明,基础生成阶段的速度非常快,且在不同分辨率下耗时几乎不变。高分辨率下的额外耗时主要来自超分辨率放大和解码两个阶段。

全面开源

daVinci-MagiHuman 将全部模型权重和推理流程面向社区开源发布。

● GitHub 代码仓库:https://github.com/GAIR-NLP/daVinci-MagiHuman

● 模型权重下载:https://huggingface.co/GAIR/daVinci-MagiHuman