全球首次提出数字基因:具身世界万物操作万能说明书

2025.07.30阅读量:10

科研进展

上海创智学院卢策吾团队发布了全球首创数字基因方法论,算法和系统,打造具身世界万物操作万能说明书。构建实体物理世界的具身知识(结构、功能、可供性、操作属性)的大规模通用解析,有望成为具身智能数据的“AlphaFold时刻”。该项目也联合了上海交通大学,穹彻智能等大学与企业科研力量。


当前,具身智能已成为人工智能学术界与产业界的前沿热点,并有望创造人类历史上最大的产业,同时也是通往AGI的重要路线之一。


具身智能使得AGI从虚拟世界走到实体物理世界,实训与万物交互。然而,目前机器人缺乏对万物操作的理解,多模态大模型的世界观还停留在语言模糊描述的阶段,缺乏对万物操作说明书级别的解析。同时,目前面向通用万物操作解析说明书级别指导的基础设施也正面临缺失,之前的数字孪生无法对无穷无尽和未见物体做数字化。




受到生物界基因表达模式的启发,我们发现实体物理世界中存在着多种类似生物基因的有效表达。正如各式各样的物种均以基因为起点进行表达,对于同类物体而言,他们有着共同的“结构、功能、可供性、操作属性”的统一特征表达,如果能够提取统一表达,便可生成该类物体的所有形态,甚至可以实现跨类嫁接生成新的未见物种。


因此,我们在全球首次提出“数字基因”的概念,以程序化形成刻画类的概念表达,通过参数调整可海量规模化自动生成带有“结构、功能、可供性、操作属性”的操作说明书级别数据资产。




相较数字孪生,手工生成一个机器人操作数据资产需要每个约150元/2小时,我们的成本为0.006元/1秒(单GPU),成本降低1万倍,更重要是可规模化产生。这样的飞跃犹如从手动蛋白质解析到AlphaFold自动解析蛋白质,有望带来具身智能数据的“AlphaFold时刻”。


该项目的72B旗舰大模型设计也是首次“视觉-代码”的无人区探索,目前能通用解析各类物体,并且配合VLA模型在标准测试集上大幅提高准确率。我们定义具身数据的五个层面,并给出评测标准,首次达到了L4级别,而且其方法论有巨大潜力达到L5级别。




该基础设施也将为具身智能带来“北斗”导航级别的基础设施。制造商能上传其产品数字基因,由数字基因平台训练并部署在机器人上后,遇到该产品可以自动解析其产品说明书,实现万物操作的万能说明书。



GitHubhttps://github.com/sii-research/DigitalGene

HuggingFacehttps://huggingface.co/collections/sii-research/digitalgene-686a708500f08227013200ea

论文链接https://arxiv.org/pdf/2504.04170