ORoboSoul:面向具身智能技术路线收敛平台

2025.10.15阅读量:15

科研进展

上海创智学院卢策吾团队发布了面向具身智能技术路线收敛的创新开源平台ORoboSoul(Open Robot Soul),团队PI还包括(按拼音排序):蔡盼盼、李永露、刘鹏飞、高岳、孙健华、杨理欣、叶南阳。当前,具身智能有可能成为人类历史上最大产业之一,但是目前技术路线尚未收敛,严重阻碍该产业的发展。我们发现每一条路线都存在探索不确定性,且每一条技术带来一定具身语义量的同时,也带来固有不确定或者语义偏差。针对这一行业困境,提出 ORoboSoul平台支持全路线探索,且每条技术路线的模型可以能动地具身语义互补融合,最终面向性能最大化目标收敛成大一统具身模型。目前,ORoboSoul v1在五个关键方向做首创性突破,并开始形成能动融合雏形,并形成一门创新课程,具体如下:


数字基因:依赖大模型学习到的语义层面的概念对具身应用来说是远远不够的,AI系统目前缺乏有效的方式来理解物理世界。本团队首次提出“数字基因”的理论,通过物理概念程序化,实现了将模糊的视觉感知与语言描述解析为计算机程序的突破。基于数字基因理论,团队实现了亿级规模的数据合成算法并基于此训练72B感知-程序大模型,实现目标对象的全状态解析,为机器智能提供了一个感知、推理和与物理世界交互的入口。



虚实表征:具身智能发展长期受限于跨本体数据稀缺与域间差异,难以实现人类操作知识向机器人的高效迁移。本团队首创“具身伴生”数据合成与表征框架,通过多视角实时精确建模人类手部信号,并在运动学、视觉与三维空间中与合成机械臂对齐,生成场景兼容、动作一致的机器人操作数据。同时在隐空间实现人机视觉表征的统一对齐,从而突破了人机知识迁移的瓶颈。该成果为互联网级人类操作数据构建统一表征,开辟了机器人直接从人类操作中学习的新路径。




端到端因果推理闭环交互学习:针对机器人现实任务中的OOD难题,大规模预训练可以改善模型应对未见场景的能力,但目前尚无大规模的此类数据可用。因此,我们提出从因果推理的角度出发,通过人机协同学习,以更少的数据赋予模型更强的理解和应对能力。让机器人遵循停止、思考、观察、计划、执行的流程,以分治法解决目前小规模数据和模型下的泛化性和安全性问题。


找寻创智龙——抗干扰
安全操作-基于因果推理的“防火墙”

开放世界具身决策大脑:针对现有大模型“想当然”、VLA“无脑模仿”、决策算法“死脑筋”的瓶颈,我们首创“常识性具身决策”体系。它融合具身知识图谱与决策大模型,让机器人具备世界常识、组合泛化与长程决策能力,实现前所未有的开放世界“言出法随”。从复杂任务自主决策到自动移动操作,机器人不再是机械的执行者,而是能举一反三、融会贯通的“最强具身大脑”,开启真实世界的决策智能新纪元。


现有的端到端视觉-语言-动作模型(VLA)由于误差累积等原因,无法执行复杂的长程任务,限制了其实际应用。我们提出的CortexVLA模型架构,首创引入大语言模型的工具调用机制,通过具备强大推理能力的“中央大脑”统一调度视觉感知与动作执行。CortexVLA在超长程任务基准测试中取得了接近90%的平均成功率,同时在包含30余项子任务的分拣场景中仍保持87%的成功率,显著超越π0等当前最优的VLA模型。这使机器人突破了被动执行指令的局限,展现出可思考、可扩展、可解释的具身智能新范式。


课程:创智学院面向国家重大战略布局,推出国内首个“人人可上手真机”的具身智能课程。当前,中国具身智能人才培养存在博士代差与设施短缺等瓶颈,创智学院以跨学科协同与产学研融合为主线,探索“创模式、聚学科、建平台”的人才培养体系。课程覆盖机械臂运动学、强化学习与大模型应用,学生在真实场景中实现跨平台全栈式实践。学院立志成建制培养顶尖具身智能人才,加快突破国家人才鸿沟。