把心里的故事拍出来：刘鹏飞团队携手Sand.ai开源世界首个"懂人"的音视频基座模型

2026.03.24阅读量：19

科研进展

每个人心里，都有一个还没被讲出来的故事。一段旋律，一个画面，一种说不清楚的情绪——那是人类最珍贵的东西。

从来不缺故事，只缺一个能把它拍出来的方式。帮每个人传递这些情感，才是AI真正应该做的事。你刚才看到的每一帧画面、每一个音符，来自同一个模型：daVinci-MagiHuman——国内首个、也是目前全球开源最"懂人"的音视频同时生成原生基座模型。做这件事，比它看起来要难得多

作品一《对白》

真正的音视频同时生成，从来不是把两个模型拼在一起那么简单。市面上大多数所谓的"音视频生成"，走的是两条路：一条是让视频和音频串联输出，本质上是先后两次生成；另一条是拿一个成熟的视频生成模型，再接上一个语音后训练环节。这两种方式，都绕开了最难的那道门——从头音视频的联合预训练。

真正的联合预训练，意味着从零开始，在同一个模型里，同时让视觉与声音相互理解、共同生长。这对数据规模、算力投入和架构设计的要求，是量级上的跨越。也正因如此，全球范围内走到这一步的团队，已所剩无几。

今天，来自上海创智学院刘鹏飞团队携手Sand.ai，正式开源 daVinci-MagiHuman（达芬奇·麦琪）——国内首个、也是目前全球开源最"懂人"的音视频同时生成原生基座模型（技术角度来说，开源界首个采用纯自注意力架构的开源音视频基座模型）。

“懂人”的三层含义：

"行" ——技术上更擅长生成人物，这是最直观的能力层面，告诉读者"它做出来的人更像真人"

"互" ——蒸馏版本让实时交互成为可能，从单向生成变成了双向对话，这是体验层面的跨越

"意" ——更加智能体原生的音视频生成模型，通过赋予智能体脚手架（Agentic Harness)，理解更多关于你的上下文，让创作真正贴近人的思想与情感。

我们相信AI科研的终极价值之一，是用技术理解并传递人类最珍贵的情感。现在，借助开源的daVinci-MagiHuman，每一个普通人都可以剪出一支属于自己的微电影，拍出心里一直想讲的那个故事。

1936年，图灵问："机器能思考吗？"没有人知道，这个问题会把整个人类文明带向何处。不同的时代孕育了不同的伟大。图灵的时代有图灵的问题，香农的时代有香农的答案。而今天，AI正以前所未有的速度，把越来越多的不可能变成可能。我们相信，我们正处于人类历史上最伟大的时代。

作品二：《伟大的时代》

daVinci-MagiHuman诞生于怎样一个背景？

视频生成已成为生成式 AI 最炙手可热的前沿方向。以 Sora、Veo、Seedance、Kling 为代表的闭源系统持续刷新技术上限，而 Wan、LTX-Video、HunyuanVideo 等开源项目也为社区提供了可用的替代方案。近期，业界焦点进一步聚焦到音视频联合同步生成——Veo 3、Sora 2、Seedance 2.0 和 Kling 3.0 等闭源模型已展示出令人惊艳的效果。开源侧虽有 LTX 和 Ovi 的早期探索，但在生成质量、架构通用性和部署效率上，差距依然显著。

问题的根源，在于现有开源方案在架构设计上的三重局限：

跨模态同步难：生成的视频和音频各自尚可，但要在时间和语义上精确对齐，仍是一大挑战。

架构扩展难：LTX-2 将音频视为从属信号通过跨注意力注入，Ovi 则通过复制整个视频骨干将音频提升为平行流，参数成本翻倍。两者都硬编码了固定的模态层级——每加一个新模态，就得做一次架构手术。

生成速度慢：现有的音视频联合生成模型往往因为模型架构设计复杂、难以充分优化，从而导致生成速度较慢，难以满足交互式场景的需求。

正式为了打破这三重壁垒，我们正式发布 daVinci-MagiHuman。

daVinci-MagiHuman核心技术揭秘？一个 Transformer 统管所有模态

daVinci-MagiHuman是开源界首个采用纯自注意力架构的开源音视频基座模型。以 150 亿参数的统一 Transformer 为核心，文本、视频、音频三种模态在同一骨干网络中作为一等公民联合建模，彻底告别跨注意力和模态专属分支。模型支持双模式推理：多步扩散模式最大化生成质量，少步模式在消费级 GPU 上实现近实时生成。在与 LTX-2.3、Ovi1.1的全面对比中，daVinci-MagiHuman 在主观人工评测和客观基准上均展现出领先的表现。模型权重和推理流程已全部开源

纯自注意力，模态无关：一个骨干，无限扩展

daVinci-MagiHuman 的设计理念极其简洁：一个骨干网络，所有模态一视同仁。模型核心是 150 亿参数、40 层 Transformer 堆叠。文本、视频、音频的 token 在同一自注意力框架内相互关注——没有跨注意力模块，没有模态专属分支，没有任何结构不对称性。

这意味着：扩展新模态只需引入新 token 和轻量适配器，无需对骨干做任何改动。与 LTX-2 的从属式跨注意力和 Ovi 的整体复制方案相比，这是根本性的架构优势。

无时间步去噪 + 修正流匹配

daVinci-MagiHuman 采用修正流匹配（Rectified Flow Matching）进行训练，对视频和音频隐变量执行速度预测，其中视频损失权重比音频高一个数量级。训练中每种模态独立采样状态（加噪、干净或丢弃），使模型无需架构变更即可在推理时灵活支持：

图生视频（Image-to-Video）

音频条件生成（Audio-Conditioned Generation）

无分类器引导（Classifier-Free Guidance）

低延迟级联流水线：每一阶段都为速度而设计

整条流水线围绕低延迟展开设计，每一阶段都经过针对性优化：

骨干网络采用纯自注意力，省去跨注意力带来的额外显存和计算开销，并通过自研推理编译引擎 MagiCompiler 进行全图编译——跨层算子融合、分布式通信优化以及 CUDA Graph 自动捕获与复用——进一步降低训推延迟；

超分辨率阶段完全在隐空间中执行——先通过三线性插值上采样隐变量，再仅用 5 步去噪即可提升至目标分辨率，计算量仅为基础阶段的一小部分；

VAE 解码器可选 TurboVAE 蒸馏模型，大幅降低解码延迟。

性能实测：全面对标开源 SOTA

我们从主观人工评测和客观基准评测两个维度进行了系统性测试，对标当前最具代表性的开源音视频模型：LTX-2.3和Ovi 1.1。

主观评测：100 条内部数据集，人类评审打分

我们构建了 100 条样本的内部评测数据集，覆盖图文生音视频任务，由评审员从多个维度对各模型的生成结果进行盲评打分。

表 1：主观评测结果（100 条内部数据集，图文生音视频，人工评分）

客观评测

在视频质量评测方面，我们以 VerseBench 为测试基准，使用 VideoScore2 对画面质量、文本一致性和物理合理性三个维度进行评分，并与 Ovi 1.1 和 LTX 2.3 两款模型进行了对比。在音频质量方面，我们在 TalkVid-Bench 数据集上通过语音识别的字错率（WER）来衡量语音清晰度，该指标越低越好。

结果显示，davinci-MagiHuman 在画面质量和文本一致性两项指标上均取得了最优成绩，同时语音字错率仅为 14.60%，大幅优于 Ovi 1.1 的 40.45%，也优于 LTX 2.3 的 19.23%。在物理合理性方面，LTX 2.3 略胜一筹，但 davinci-MagiHuman 在该指标上依然表现出色，综合视频和音频两方面的质量来看，达到了最佳的整体均衡水平。

表 2：客观评测结果（VerseBench 基准测试）

在视频生成效率方面，我们测试了模型在不同分辨率下生成5秒视频的耗时。整个生成流程分为三个阶段：Base（基础模型去噪）、SR（超分）和Decode（VAE解码）。其中SR阶段仅在需要从超分时时启用，因此256p下无该阶段。1080p分辨率下，由于单卡显存不足以容纳完整模型，需开启CPU Offload才能在单卡上运行，导致速度大幅下降，因此采用CP = 2的双卡并行方案以获得更优的生成效率。

表3：生成5秒视频在不同分辨率下的各阶段耗时（单位：秒）

在上述测试中，基础生成阶段采用了经过 DMD2 蒸馏后的轻量模型，仅需 8 步去噪即可完成生成，同时解码阶段使用了 Turbo VAE 高速解码器。结果表明，基础生成阶段的速度非常快，且在不同分辨率下耗时几乎不变。高分辨率下的额外耗时主要来自超分辨率放大和解码两个阶段。

全面开源

daVinci-MagiHuman 将全部模型权重和推理流程面向社区开源发布。

科研创新