2026年1月12日,上海创智学院第十三期创智讲坛在401教室成功举办。本次创智讲坛由学院导师罗剑岚老师特邀加州大学伯克利分校教授、Physical Intelligence创始人Sergey Levine,通过线上的形式与学院师生共同探讨从大语言模型通往具身智能实体的技术路径。

1.从实验室走向现实:机器人基础模型的崛起
Levine 指出,构建机器人基础模型不仅具有替代人类从事繁重劳动的实用价值,更具有深远的科学意义,是人类通往通用人工智能(AGI)的关键一步。其挑战在于如何实现感知与控制的深度融合。与传统的单一任务机器人不同,基础模型的目标是打造一个能够像人类一样,通过通用常识理解世界并执行多样化任务的物理系统。

2.技术跃迁:从第一代到第二代 VLA 模型
在技术架构层面,Levine 深入解析了视觉-语言-动作模型(VLA)的演进。他形象地比喻道,第一代 VLA 模型就像视觉编码器,为语言模型装上了“视觉皮层”,初步实现了将视觉信息转化为动作指令,但在复杂环境下的泛化能力和动作连贯性仍有不足。第二代 VLA 模型(如 Pi0)则是为大模型引入了一个“虚拟运动皮层(Virtual Motor Cortex)”,通过将预训练的视觉语言大模型(VLM)作为“大脑”进行高层决策,结合专门的动作生成模块,模型能够输出更平滑、更高频率的物理动作。

3.“预训练+后训练”:打造机器人的物理常识
针对数据难题,Levine 分享了他在 Physical Intelligence 公司的最新研究成果。在 Levine 看来,具身大模型的核心训练范式包括:
·大规模预训练: 利用多样化的跨机器人数据集,让模型学习“物理世界的普适规律”,建立基础的物理感官。
·针对性后训练: 使用高质量、经筛选的特定任务数据进行微调(Fine-tuning)。
·强化学习(RL)的整合: 将 RL 的探索能力与基础模型的通用知识相结合,是实现机器人从“能做”到“做得快且好”的必经之路。通过强化学习不断修正偏差,极大提升了机器人在执行任务时的鲁棒性与响应速度。
此外,Levine 还提到将人类动作视频数据融入训练过程,通过观察人类行为来加速机器人的学习曲线,这一方向正成为当前研究的焦点。

在问答环节,现场师生通过云端与 Levine 教授进行了踊跃的交流。关于“学生如何在当下AI热潮中寻找研究方向”,Levine 指出,当前的研究往往涉及庞大的系统集成,他鼓励同学们在关注系统整合的同时,务必找到一个切入点深入探索(Go Deep),平衡好系统性工作与深度创新之间的关系。 针对“世界模型与VLA的关系”以及“全身控制与精细操纵的结合”等前沿问题,Levine 教授也一一给予了详尽且富有洞见的解答。

本次创智讲坛清晰地勾勒出具身智能的路径图:数据多样性、模型通用化以及强化学习的实时迭代,在技术发展日新月异的背景下,具身智能正加速走向新纪元。作为上海创智学院的顶级平台,创智讲坛将继续邀请国内外知名学者,围绕人工智能领域的前沿话题展开深度对话,打造一流学术交流品牌。
