星星之火可以燎原,创智OpenEAI-Platform:具身大模型软硬一体优化全开源平台

2026.03.05阅读量:10

科研进展

具身智能正在把 AI 从“会看会说”带到“能动手做事”的真实世界。然而,真正把模型跑到现实机器人上,往往会遇到三大瓶颈:机械臂没有针对具身任务做优化、机械臂价格昂贵、强力 VLA 模型依赖私有数据与不公开的训练细节导致复现困难。


上海创智学院和上海交大卢策吾、叶南阳团队依托上海创智学院标杆项目 “ORobotSoul面向价值Scaling Law的通用具身智能研究” 与美的祝毅晨团队合作推出 OpenEAI-Platform——一套覆盖“硬件设计—低层控制—数据采集—数据处理—预训练后训练—在线部署”的具身大模型全流程开源平台。我们平台首次提出:1)以机器学习驱动的软硬一体联合学习优化,相比低成本机械臂提升2倍可操作性,相比同规格机械臂价格降低60%以上(量产后有望价格降低90%),控制在5700元以内。2)类PI0路线的全流程开源VLA大模型,仅使用开源数据预训练,在下游数据上性能超过或接近PI0。



我们的愿景是让任何研究者都能从零开始搭建真实世界具身智能系统,在此基础上进行VLA大模型预训练和后训练,持续迭代优化,打造强泛化通用具身大模型。


一、一个平台,完整打通从硬件到VLA的全链路


OpenEAI-Platform 由两大核心部分组成:


1)OpenEAI-Arm:低成本 6+1 自由度机械臂,制造与控制全开源


我们提供一套可复现、易扩展、可量产的 6+1 DoF 通用桌面机械臂方案,告别“拍脑袋”设计参数,通过机器学习优化机械臂参数,提高可操作性和耐久性,开源内容包含:  

·机械臂BOM、结构图纸、制造与装配流程  

·完整的底层驱动、控制库  

·支持单臂与双臂组合的多臂控制示例  


同时,我们围绕 VLA 模型输出的动作特性,对低层控制做了针对性优化,使机械臂能够稳定执行高频、连续、变化多样的动作指令,为真实世界 VLA 验证提供可靠硬件基础。


图1 开源机械臂设计图

图2 开源机械臂可操作性优化

2)OpenEAI-VLA:端到端 VLA 大模型,训练与部署全开源


OpenEAI-VLA 采用最新的Qwen3-VL作为骨干视觉-语言模型(VLM),并通过两项关键设计实现可扩展、可复现的真实机器人控制:  

·可学习式压缩信息表征:在图像与文本 token 后追加固定长度的可学习信息表征提取器,只取对应压缩信息作为动作头的条件输入,实现稳定、高效的 VLM→动作接口。  

·DiT 动作头 + Flow Matching 连续动作生成:以 Diffusion Transformer 作为动作头主干,结合 Flow Matching 进行去噪生成动作序列,实现高质量、时序一致的连续控制。  


(以下视频详见公众号链接:https://mp.weixin.qq.com/s/fNT_POwuMlLrtcpfhNBwMQ


视频1 : Clean Table 4x

视频2 : Make Tea 4x

视频3 : Fold Towel 4x


二、两阶段训练 + 数据统一:用开源数据做出强性能 VLA


我们将训练流程设计为标准的两阶段 recipe,全部基于开源数据,保证复现性:  


1.预训练:基于 Open X-Embodiment 等开源数据,进行大规模通用技能学习;支持多来源数据并行转换与清洗。  

2.微调:用少量任务示范数据进行适配,并引入 COCO、VQA-v2、PixMo-Points 等多模态数据进行联合训练,提升定位精度与视觉grounding能力。即便不追求保留模型的的推理或对话能力,多模态数据同样能显著提升操控精度。


此外,面对不同数据集的动作/状态维度与定义差异,我们引入数据集适配器:为每个数据集用轻量 MLP/线性层把 state/action 对齐到统一高维空间,再解码回各自格式,从而显式编码“数据集差异”,突破传统靠筛数据或 padding/mask 的限制,让跨本体、跨格式预训练更稳、更可扩展。


三、多种数据采集方案,覆盖从快速验证到大规模扩充


OpenEAI-Platform 内置三套数据采集流程,满足不同条件下的快速启动与规模化扩展:  


1.拖动示教:低成本、零门槛,用于快速验证任务流程与可达性;  

2.主从臂/GELLO 遥操作:更贴近部署闭环,示范质量高;  

3.VR 遥操作:通用性强、空间占用小。


我们还将提供UMI大规模采集流程,面向预训练数据扩充,覆盖更广环境。


四、实验验证:硬件可靠、模型强、开源可复现


在多项真实世界操控任务中,OpenEAI-Arm 在相同策略下表现与主流商用机械臂对比具有竞争力,且对构型差异大的机械臂具有明显优势。  


在模型对比中,OpenEAI-VLA 仅使用开源预训练数据,即可达到与0相近、部分任务略优的成功率,证明开源路线同样可以做到强性能;与更大规模私有数据训练的模型相比,我们也展示了进一步提升的明确路径。  


此外,消融实验表明,可学习式压缩信息表征、数据集适配器、多模态联合微调与冻结/解冻策略共同构成了性能关键点。


五、全开源:让复现不再困难,让改进不再从零开始


我们将开源:  

·OpenEAI-Arm 的图纸、BOM、制造/装配流程、驱动与控制代码  

·OpenEAI-VLA 的模型结构、数据处理工具链、两阶段训练代码、推理服务接口与复现实验脚本  


并将提供统一接口,方便研究者替换后端策略(如0、ACT、Octo、OpenVLA),在同一硬件上进行公平对比与快速迭代。


六、我们希望做到的事


OpenEAI-Platform 的目标不是发布一个“封闭的产品”,而是提供一个可复制、可扩展、可持续共建的标准化开源底座,彻底打破“数据孤岛”, 用开源打造强泛化通用具身大模型:

  

·降低具身智能研究门槛  

·推动数据共享与格式统一  

·支持社区在开源条件下验证“数据规模定律”与更强泛化能力  

·让真实机器人具身智能研究更快、更透明、更可持续


如希望参与共建、贡献数据或迁移到新的机械臂/任务,欢迎持续关注。我们期待与社区一起把具身智能做成真正可复现、可规模化的开放生态。


项目及论文链接:https://github.com/sii-research/ORoboSoul/blob/openeai-platform/