创智发布丨上海创智学院首提科研驾驶舱,构建下一代能动型科研系统

2026.01.31阅读量:28

科研进展

一、引言:科学新范式的黎明


尽管 AI for Science(AI4Science)在材料、化学、生物等领域已展现出巨大潜力,其现实应用形态却长期停留在一种狭窄而被动的位置。以 AlphaFold 为代表的突破性成果,充分证明了 AI 在解决重大科学问题上的能力,但这些成功更多是嵌入在传统科研流程中的“孤立能力点”,而非对科研体系本身的系统性重构。AI 的作用被压缩在科研链条的单一环节,未能在假设提出、实验设计、结果验证与知识积累等关键阶段形成持续驱动力。


这一局限并非源于模型能力不足,而是源于科研组织方式本身尚未发生根本改变。在现有范式下,AI 依然被视为一种“模型预测工具”——它可以回答问题,却无法参与提出问题;可以执行计算,却无法驱动科研流程。


目前,AI 的角色正在发生根本变化——从辅助工具,转变为科研体系中的核心基础设施。科研不再被视为一系列离散的探索活动,而是被重新定义为一个可被建模、执行、验证和持续优化的“智能生产过程”。


正是在这一全球趋势下,上海创智学院提出科研驾驶舱(Research Harness)的概念,作为对当前 AI4Science 瓶颈的系统性回应。科研驾驶舱并非又一个模型或平台,而是一种面向科研全流程的能动型操作系统,其目标是赋予 AI 以真正的科研能动性,使其能够作为“科研合作者”,参与并驱动科学发现的全过程。



二、当前 AI4Science 的瓶颈:模型能力无法转化为科研效率


在过去十余年中,人工智能在科学研究中的影响力持续上升。从早期的数据驱动建模,到深度学习在结构预测、性质回归与模式识别中的广泛应用,AI4Science 已经成为推动科学前沿的重要力量。以 AlphaFold 为代表的突破性成果,更是直观展示了 AI 在解决复杂科学问题上的潜在上限。


然而,一个不容回避的现实是:AI 在科研中的“能力提升”,并未线性转化为“科研效率提升”。在多数科研场景中,即便模型性能不断刷新纪录,科研周期、试错成本与整体产出效率的改善却远低于预期。这一现象并非偶然,而是源于当前 AI4Science 应用范式的结构性瓶颈。


科研的本质是一个跨阶段、强依赖的过程。假设提出、方案设计、数据准备、实验执行、结果分析与知识沉淀之间存在紧密耦合。



从实际科研流程看,AI 的介入大多集中在某一个孤立环节,通常表现为对既定问题的预测或拟合。例如,在材料科学中预测材料性质,在化学中预测反应结果,在生物学中预测蛋白结构。这些能力在技术层面无疑是重大进步,但在科研系统层面,它们依然只是“点状能力”。


当前 AI4Science 的隐含前提,是将科研问题视为一系列可被模型直接解决的计算任务。然而,真实科研中的主要时间与成本消耗,往往并不发生在计算本身,而发生在以下环节:


·科研目标的不断澄清与调整

·假设失败后的归因分析

·实验方案与资源的协调

·多轮试验结果的综合判断

·知识碎片的整合与复用


这些环节高度依赖人类经验与隐性知识,缺乏结构化表达,因此难以被现有模型直接介入。


在当前范式下,科研系统的运行高度依赖人类作为“中央调度器”。研究人员需要在不同工具、不同阶段之间手动衔接流程,承担几乎所有跨阶段决策与异常处理工作。这种模式在小规模研究中尚可维持,但在面对高通量实验、复杂系统建模或跨学科协同研究时,人类很快成为系统中最慢、最不可扩展的环节。科研规模越大,个体负担越重,整体效率反而下降。


综合来看,当前 AI4Science 的瓶颈并不在于模型“不够强”,而在于缺失两项关键要素:


·一是 科研能动性

AI 无法对科研过程本身进行规划、推进与修正;

·二是 科研执行系统

缺乏一个能够承载长期科研任务、协调工具与验证结果的操作系统级基础设施。


在没有这两者之前,AI 只能作为“能力插件”嵌入科研流程,而无法成为“科研过程的驱动力”。


也正是在这一意义上,当前 AI4Science 的瓶颈,构成了引入科研智能体和科研驾驶舱(Research Harness)的必然前提。只有当科研从“模型增强”迈向“系统重构”,AI 的能力才能真正转化为科研效率。


三、从模型到智能体:科研能动性的出现


长期以来,AI 在科学研究中的角色,本质上是“能力模块”的集合。无论是回归模型、深度神经网络,还是近年来的大语言模型,其核心工作方式始终围绕一次性推理或预测展开:给定输入,生成输出。即便模型能力不断增强,这一范式并未发生根本改变——AI 依然无法脱离人类的持续调度,独立推进科研任务。


这种以模型为中心的 AI,在科学场景中天然受限。科研并非单步推理问题,而是一个高度动态、跨阶段、强耦合的长期过程。科研目标往往模糊、约束多样,路径充满不确定性,需要在假设、实验、失败与修正之间不断循环。模型可以在某一节点给出高质量结果,却无法理解整个过程,更无法对过程负责。


科研能动性(Research Agency) 指 AI 是否具备对科研过程本身进行组织、推进和修正的能力。这标志着 AI 从“计算能力”向“行动能力”的跃迁。然而,需要强调的是,科研智能体并不意味着“去人化科研”。相反,它重新界定了人类与 AI 的分工边界。人类科学家负责提出真正有价值的问题、进行跨领域判断、设定伦理与安全边界,并对最终结论负责;科研智能体则承担大规模、长周期、高重复度的科研执行工作。


上海创智学院团队认为,要让这种能动性在真实科研环境中持续发挥作用,必须有一个能够承载、约束并放大智能体能力的系统性基础设施——这正是科研驾驶舱(Research Harness)所要解决的问题。


从功能层面看,科研智能体并不是对现有模型能力的简单叠加,而是一种围绕科研全过程构建的综合能力体系。其核心特征在于,智能体不再仅仅“回答问题”,而是开始对科研目标、科研路径与科研结果负责。这一转变,集中体现在以下四类关键能力上。



1.科研意图与目标的内化能力


传统模型只能处理显式、局部、即时的指令,其行为边界由输入提示严格限定。而科研智能体的首要能力,在于能够理解研究目标背后的科学动机、问题结构与隐含约束,将“一个研究想做什么”转化为系统内部可持续维护的目标状态。


科研问题往往并非单目标优化。例如,“寻找一种更高效的催化剂”这一目标,实际上同时包含反应效率、选择性、稳定性、成本、可规模化合成、安全性等多重维度,这些维度之间往往存在内在冲突。科研智能体能够显式建模这些目标之间的权衡关系,并在研究推进过程中动态调整侧重点,而非机械地追求单一指标的最优。


这种能力的本质,是将科研目标从“一次性指令”升级为“系统级约束条件”,使研究方向不依赖人类反复提醒,而能够在整个科研周期中保持一致性与连续性。


2.跨阶段任务分解与长期规划能力


科研的复杂性,很大程度上来源于其跨阶段特性。假设提出、证据积累、实验验证与结论形成之间存在明确的逻辑依赖,而非简单的时间顺序。科研智能体能够识别这种依赖关系,将高层科研问题拆解为一组相互关联的子任务,并在时间维度与逻辑维度上进行统一规划。


更重要的是,这种规划并非预先写死的流程,而是一种可演化的研究计划。科研智能体会根据中间结果不断调整后续行动顺序,例如在仿真结果不支持初始假设时,提前终止某些实验分支,或引入新的假设方向。这使科研从“线性推进”转变为“状态驱动的动态探索过程”。


在这一能力支撑下,科研智能体首次具备了承担数周甚至数月研究任务的可能性,而不再局限于单次交互或短周期试验。


3.多工具、多环境的统一行动能力


真实科研环境天然是高度异构的。研究人员需要在代码环境、仿真软件、实验设备、数据库、文档系统之间频繁切换,而这些切换本身往往构成科研效率的重要损耗。科研智能体在科研驾驶舱的支撑下,能够将这些异构工具统一抽象为可调用、可组合的“科研行动空间”。仿真运行、参数扫描、实验调度、数据分析与文档生成,不再是割裂的人工操作,而成为智能体可连续执行的一组科研动作。


这一能力的关键不在于“会用多少工具”,而在于行动的连续性与可追溯性。每一次工具调用都被纳入科研轨迹之中,使科研行为从“临时操作”转变为“系统行为”。这也是 AI 首次在真实科研系统中具备“做事”而非“给建议”的基础。


4.反思、评估与路径修正能力


科研的核心特征之一,是高失败率与高不确定性。大多数假设最终都会被证伪,大多数实验都会产生噪声或异常结果。传统模型在失败面前是“失语的”,只能被动等待新的指令。


科研智能体则具备对中间结果进行系统性反思的能力。它能够识别仿真不收敛、实验数据异常、结果与预期显著偏离等情形,并结合科研目标判断这些失败是“有价值的探索信号”,还是“应当尽早终止的路径”。基于这种评估,科研智能体能够主动触发路径修正:调整参数空间、引入新的假设、改变实验策略,甚至回溯到更早阶段重新定义研究问题。这使科研过程首次具备了由系统内部驱动的反馈闭环,而不再完全依赖人类的即时介入。


综合来看,这四类能力并非彼此独立,而是共同构成了科研智能体的科研能动性基础结构。正是因为具备对目标的内化、对过程的规划、对行动的执行以及对结果的反思,科研智能体才得以从“被调用的模型”,进化为“能够持续推进科研的系统性参与者”。


四、科研驾驶舱(Research Harness):科研能动性的操作系统


在真实科研环境中,单个智能体是脆弱且不可持续的。科研任务周期长、依赖复杂、工具异构、结果高度不确定,若缺乏系统级支撑,智能体很快会陷入上下文丢失、目标漂移、不可复现或不可验证等问题。因此,科研能动性要真正落地,必须依托一种新的基础设施形态——科研驾驶舱(Research Harness)


科研驾驶舱并非传统意义上的科研平台,也不是模型或工具的简单集成。它的核心定位是:一种面向科研全过程的能动型操作系统(Agentic Research OS)


在传统科研环境中,研究人员需要在论文、代码、仿真工具、实验设备、数据系统之间频繁切换,所有流程控制与状态管理均由人类承担。即便引入 AI,也只是作为某个环节的辅助工具,无法形成整体协同。


科研驾驶舱的根本改变在于:它将“科研过程本身”提升为一等系统对象。科研目标、假设、实验、结果、失败与修正,不再分散在各类工具和文档中,而是被统一建模、统一管理,并由智能体在系统约束下持续推进。


正如操作系统之于计算机硬件,科研驾驶舱的作用,是为科研智能体提供一个可执行、可调度、可回溯的运行环境。换言之,科研驾驶舱是智能体能力的“放大器”,也是其风险与不确定性的“稳定器”。它确保科研能动性不会演化为不可控的探索,而是始终运行在科学方法与工程规范之内。


·科研驾驶舱的三层核心能力



从架构上看,科研驾驶舱围绕科研能动性,提供三层不可或缺的系统能力。


第一层:科研意图的系统化建模与编排能力


科研驾驶舱能够将人类科学家提出的高层研究目标,转化为系统可理解、可调度的“科研任务图谱”。这一过程不仅是任务拆解,更是对科研逻辑本身的显式建模,包括研究假设、约束条件、评价指标与阶段性里程碑。


这使得科研目标不再依赖隐性的“人类记忆”,而成为系统中的长期状态,可被持续引用、检查与修正。


第二层:智能体驱动的行动执行与工具协同能力


科研驾驶舱为智能体提供统一的行动接口,使其能够在异构科研环境中执行操作,包括仿真运行、代码执行、实验调度、数据库查询与文档生成。


关键在于,这些行动并非“即用即弃”,而是被系统完整记录为科研轨迹的一部分。每一次工具调用、每一次参数变更、每一次失败与回滚,都会被纳入可追溯的执行历史中,从而保证科研过程的工程化与可复现性。


第三层:长期记忆、验证与迭代控制能力


科研任务往往跨越数周甚至数月。科研驾驶舱通过分层记忆机制,将即时上下文、项目级状态与长期知识进行区分与管理,避免智能体因上下文窗口限制而“遗忘科研本身”。


同时,科研驾驶舱内置科学方法导向的验证逻辑,自动组织“假设—仿真—实验—验证—修正”的循环。当某一环节失败时,系统并非简单终止,而是驱动智能体进行归因分析与路径调整,确保科研进展具有内在连续性。


从更宏观的角度看,科研驾驶舱并不是某个具体学科的专用工具,而是一种通用科研基础设施形态。它位于模型、算力与数据之上,又服务于材料、化学、生物、工程与 AI 等所有科研领域。在这一意义上,科研驾驶舱与操作系统、数据库、编译器一样,属于“低可见度、高决定性”的基础设施。一旦形成成熟体系,其价值将不体现在单篇论文或单项成果上,而体现在整个科研系统效率与创新上限的跃迁


也正因为如此,科研驾驶舱并不是对现有 AI4Science 的补充,而是其下一阶段的基础前提。它为科研智能体提供了可持续运行的制度化空间,使科研能动性不再是概念,而成为可规模化落地的现实能力。在科研驾驶舱之上,真正具备高能动性的科研智能体体系才得以稳定运行,并最终推动科学研究从“工具增强”迈向“系统重构”。


五、NEX:科研驾驶舱的高能动性中枢


如果说科研驾驶舱(Research Harness)解决的是“科研能动性如何被承载与稳定运行”的问题,那么 NEX 解决的则是另一个更为关键的问题:科研能动性如何被真正“激活”和“执行”。


NEX是上海创智学院携手奇绩智峰、模思智能、跨赴科技等众多创业合作伙伴一起打造的下一代能动性模型全链路解决方案,旨在构建可持续迭代的能动性闭环开源生态,以技术突破赋能产业升级,真正推动 AI 能动性时代的到来。


·NEX网站:https://nex.sii.edu.cn/

·Github:https://github.com/nex-agi/


作为集模型、数据、Agent 开发框架与基础设施于一体的 AI Agent 全栈解决方案,Nex 致力于大幅降低 AI Agent 的开发与部署门槛,为学术界科研人员、产业界创业者提供高性能、高稳定、低成本的 “开箱即用” 能动体系,助力开发者将 AI 能动性快速落地各类应用场景。


在科研驾驶舱中,NEX 作为高能动性中枢系统,承担着将科研目标转化为持续、可控科研行动的核心职责。它并非一个单一模型,而是一套围绕科研任务组织、规划、执行与反思的能动性机制体系。正是这一体系,使科研驾驶舱从“可运行框架”升级为“可自主推进科研的系统”。



在多数智能体系统中,Agent 往往仍停留在“会调用工具的模型”层面,其行为高度依赖即时上下文和外部提示。一旦任务周期拉长、依赖增多,Agent 极易出现目标漂移、策略退化或执行失控。


NEX 的设计目标,正是突破这一限制,使智能体具备科研级别的执行能力。在科研驾驶舱中,NEX 的定位不是“智能体之一”,而是科研执行引擎


·它负责将科研意图转化为结构化、可管理的研究任务体系;

·它持续维护科研任务的全局状态,而非仅关注当前一步;

·它对科研进展负责,而非仅对单次输出负责。


从这个意义上讲,NEX 是科研驾驶舱的“中枢神经系统”,而底层模型(无论是大语言模型还是专业科学模型)更像是可被调度的“功能单元”。


在科研驾驶舱中,NEX 并非孤立运行,而是与 Research Harness 形成紧密协同关系。

·科研驾驶舱提供制度化运行环境:记忆、权限、验证与生命周期管理;

·NEX 提供科研级能动性逻辑:规划、决策、反思与执行。


二者的关系,类似于操作系统内核与用户态进程:科研驾驶舱保证系统稳定、安全、可扩展,而 NEX 决定系统是否真正“会做科研”。


这种分层设计,使科研驾驶舱既具备通用性,又能在 NEX 的驱动下适配不同学科、不同科研范式的需求。


六、总结


传统 AI4Science 所依赖的“模型增强范式”已显不足。无论模型预测多么精准,只要科研流程依然高度依赖人工组织与协调,科研效率的上限就难以突破。科研驾驶舱正是在这一历史节点上提出的系统性解法。它并非对现有科研流程的局部优化,而是对科研运行方式本身的重构。上海创智学院通过将科研目标、科研行动与科研验证纳入统一的系统框架,科研驾驶舱首次使“科研过程”成为可被建模、可被执行、可被审计、可被持续优化的系统对象。


在科研驾驶舱的范式下,AI 从“会预测的模型”,进化为“会执行科研的系统”;从孤立的算法能力,转变为具备长期规划、工具协同与自我修正能力的科研智能体。科研不再是依赖个体经验与临时决策的线性流程,而是由高能动性智能体在系统约束下持续推进的动态过程。


科研驾驶舱代表的是一种可对标、可演进、可规模化的科研基础设施形态。它并不依赖于某一具体学科,也不绑定某一单一模型或算法,而是为材料、化学、生物、工程与 AI 等所有科研领域提供统一的能动型科研操作系统。


更为重要的是,科研驾驶舱并不意味着“去人化科研”。相反,它重新定义了人类科学家的角色边界。在这一新体系中,人类科学家从繁重的流程执行与系统协调中解放出来,专注于最具创造性与战略性的工作——提出真正重要的问题、进行跨学科判断、设定价值目标与伦理边界,并对最终科研结论负责。科研智能体则承担起大规模、长周期、高不确定度的科研执行任务,成为人类智慧的长期协作者。


从更长远的时间尺度看,科研驾驶舱所开启的,是一个科研智能持续演化的起点。当科研轨迹、实验策略与决策逻辑不断在系统中沉淀与复用,科研系统本身将开始具备“学习如何做科研”的能力。届时,科学研究将不再只是加速人类已有的方法,而是进入一个由人类智慧与系统智能共同驱动的新阶段。在这一范式下,科学不再只是被发现的结果,而是被持续运行的系统;不再只是少数个体的创造活动,而是可以被整个社会持续放大的智能能力。这正是下一代科研体系的核心图景,也是科研驾驶舱所要奠定的长期基础。