机器人操作需要这样的模型:既能预测自身动作的后果,又能生成机器人可执行的控制指令——这要求模型在训练过程中学习到足够的物体交互规律与常识。然而,这类信息难以大规模地同时获得。通常,第一视角视频和人类交互轨迹提供了关于物体运动、接触、空间结构的相关信息,但其缺少对应的动作轨迹标签;真机演示数据提供了这种对应关系,将观测与通过特定本体、控制器、传感器组合及动作表征采集的动作相耦合,然而由于采集成本高昂,这类数据仅覆盖了有限的场景和任务。
为了解决这个问题,上海创智学院罗剑岚老师团队提出一种统一的视频-动作表达框架:在该框架中,异构数据源根据自身包含的信号提供监督——交互与操作视频信息用于监督未来视频生成、机器人控制信号直接用于监督动作预测、任务进度或失败片段标注则可用于进度估计。
基于这一框架,上海创智学院和智元机器人具身研究中心联合发布 τ0-World Model (τ0-WM),这是业界迄今为止最大规模数据量预训练的具身世界模型,模型参数量为5B。τ0-WM将动作生成、视频预测以及以动作条件为依托的未来评估统一起来。τ0-WM 没有将策略学习与动力学建模视为相互分离的目标,而是围绕一个共享的预测表示来构建它们。这一表示实现了两种互补的接口:一种用于预测可执行动作块的策略,另一种用于想象未来观测与任务级后果的、以动作为条件的视频模拟器。在测试时,这两种接口被组合成一个“提议–评估–修正”流程。

τ0-WM 的核心组件之一是视频动作模型(Video Action Model, VAM):其骨干网络是一个视频扩散网络,接收多视角观测、语言指令和机器人状态,联合预测未来的视觉特征以及连续动作块;其中,视频分支对具有时间结构的场景动态进行建模,而动作分支则通过层级交叉注意力机制融合中间层的视觉特征到动作特征,从而预测可执行的控制信号。除了 VAM 之外,τ0-WM 的另一个核心组件是以动作为条件的模拟器(Action-Conditioned Video Simulator, ACVS):给定当前观测、指令和一个候选动作块,它可以预测多视角的未来结果,以及一条从子任务进度标签和失败数据中学习得到的密集任务进度轨迹,从而通过视觉合理性和任务推进程度两个维度来评估动作。

多源异构数据集联合训练
训练一个既能想象未来又能执行动作的模型,需要的不只是单一数据源。为此,τ0-WM 在一个约 27,300 小时的异构数据语料库上进行了训练,其中包括真实机器人遥操作数据、UMI 风格数据以及第一视角人类交互视频。
真实机器人遥操作数据(17,800 小时,双臂,多视角)
UMI 数据(6,500 小时)提供了最强且最贴近部署场景的动作监督信号,但采集成本高昂且多样性有限。第一视角人类交互数据(3,000 小时,双臂,多视角)提供了最强且最贴近部署场景的动作监督信号,但采集成本高昂且多样性有限。这三种数据来源提供了互补的监督信号。真实机器人遥操作数据将模型与可执行的机器人动作进行对齐。UMI 数据通过带有动作相关信号的样本,扩展了操作行为和环境的多样性。第一视角人类视频则通过广泛覆盖真实世界中的物体动态,进一步扩大了视觉交互学习的规模。
这使得模型能够从广泛的交互数据中学习,而无需假设每个数据集都包含相同类型的监督信号。其核心思想很简单:利用每个数据源实际包含的信号。τ0-WM 通过模态特定的监督掩码来整合这些数据源。每个样本仅对其能够有效提供的内容进行监督。机器人演示数据同时监督视频预测和动作生成;第一视角视频监督未来的视觉预测,但不监督机器人动作;策略执行的回滚轨迹和失败轨迹可以监督任务进度的预测;缺失的相机视角或不可用的模态则被掩码屏蔽。
以动作为条件的视频模拟器
以动作为条件的视频模拟器充当了真实世界交互的可执行代理。该模拟器无需在机器人上直接执行每一个候选动作,而是预测动作序列的视觉结果,并为动作选择生成奖励信号。这在接触丰富的操作场景中尤其有用,因为在物理系统上反复进行试错执行成本高且效率低。
给定当前观测、指令以及一个候选动作块,该模拟器能够预测多视角下的未来结果,以及一条从子任务进度标签和失败数据中学习得到的密集任务进度轨迹,从而通过视觉合理性和任务推进程度两个维度来评估动作。以动作为条件的视频模拟器不仅是一个“视觉预测器”,更是一个“动作后果评估器”:帮助机器人在实际执行某个动作之前,判断该动作是否值得尝试。
推理时计算:动作提议 - 评估 - 修正
在推理时,这种统一的视频-动作接口使得τ0-WM 能够将额外的测试时计算资源分配给动作选择与优化,而非依赖于单一的前馈动作预测。策略首先采样多个动作块,并通过“重去噪一致性分数”(Re-denoising Consistency Score)对它们进行排序,该分数衡量了候选动作与所学动作分布之间的一致性。当没有任何候选动作得分较高时,τ0-WM 会进一步模拟候选的未来轨迹,选出最有前景的展开结果,并基于该未来状态进行第二次动作预测。这就形成了一个测试时的“提议–评估–修正”循环,利用已学习的世界模型在执行前改进动作选择。
真实世界精细操作任务评测
对比实验表明,加入UMI数据和第一人称操作数据能够在上述实验设置下都有提升,这种提升在零样本执行中最为显著,并且在监督微调后仍然可见,尤其是在杂乱的桌面上。在预训练数据中未出现的四个任务上,τ0-WM 获得了最佳的平均成功率,并且在多数对精度敏感的任务上表现最强。特别是,对于 Faucet 任务,所有方法仍面临困难,表明该任务远未达到饱和;尽管如此,τ0-WM 在这些严格的对齐约束下表现出更强的鲁棒性。这些结果支持了视频-动作联合建模对细粒度真实世界操作的益处。

对比实验表明,加入UMI数据和第一人称操作数据能够在上述实验设置下都有提升,这种提升在零样本执行中最为显著,并且在监督微调后仍然可见,尤其是在杂乱的桌面上。
通向具身未来:机器人先想象,再执行
τ0-WM 为机器人基础模型指明了一个更广阔的方向:机器人不仅应从更多数据中学习,还应在推理时利用计算资源来推理自身动作的后果。通过统一动作生成、视频预测以及以动作条件为依托的未来评估,τ0-WM 将世界模型转变为一个执行时的决策机制。它从异构的交互数据中学习,将视觉预测与可执行的控制信号对齐,并允许机器人在行动之前进行提议、模拟、评估和修正动作。
其长期愿景是从反应式操作转向预测式操作。未来的机器人或许不再简单地执行策略采样的第一个动作,而是能够想象几种可能的未来,评估哪一种最能推动任务前进,并基于那个未来采取行动。τ0-WM 正朝着这一愿景迈进:机器人不再只是对当下做出反应,而是推理自身的动作将为实现下一步目标创造哪些可能。为推动具身智能及通用机器人社区的学术研究与生态发展,τ0-WM 的相关模型权重及核心代码现已开源。
项目主页:https://finch.agibot.com/research/tau0-wm
GitHub:https://github.com/sii-research/tau-0-wm
Hugging Face:https://huggingface.co/sii-research/tau-0-wm

