今天,Nex-AGI 发布新一代模型 Nex-N2。Nex-AGI 是由上海创智学院联合上海奇绩智峰、模思智能、基流科技、跨赴科技等众多科研及创业伙伴共同打造的能动性模型开源生态。Nex 每一次迭代都源于生态伙伴的真实业务场景反馈,我们始终坚持生态共建驱动技术演进,让能动性 AI 真正服务于产业实践。Nex-N2 是一款面向真实生产力场景打造的能动性模型,具备第一梯队的编程与智能体能力,实现真实环境中复杂任务稳定交付。过去一年,以 Vibe Coding 和 Harness Engineering 为代表的范式转变,正在重新定义智能体的能力边界。模型要处理的任务越来越难,上下文越来越长,环境越来越真实。模型鲁棒性变得越来越重要,模型能否将思考高效可靠地转换为行动。Nex-N2 不再将推理、工具使用与环境执行视为割裂的能力,而是通过统一的能动性思维(Agentic Thinking)框架,利用自适应推理(Adaptive Thinking)和融贯推理(Coherent Thinking),把需求理解、任务规划、代码实现、环境反馈、评估调试与持续迭代连成一个完整闭环。

在智能体编程、深度研究、工具调用与终端执行等真实智能体工作流中,Nex-N2 达到开源第一梯队水平,多项权威基准较 Nex-N1 大幅提升;在 OpenClaw 一人公司、端到端软件开发、网页生成等真实生产力场景中,展现了出色的易用性、鲁棒性、稳定性。
●项目主页:https://nex.sii.edu.cn/
●模型链接:
https://huggingface.co/nex-agi/Nex-N2-Pro
https://www.modelscope.cn/models/nex-agi/Nex-N2-Pro
https://github.com/nex-agi/Nex-N2
●抢先体验:
https://cloud.siliconflow.cn/me/models?target=nex-agi%2FNex-N2-Pro
OpenRouter: Coming soon
一、真实生产力场景性能领先
我们从智能体任务、代码任务、通用任务三个方向验证 Nex-N2 在真实工作流中的能力,覆盖工具调用、搜索决策、软件工程与终端执行等多个基准。Nex-N2-Pro 展现出了紧跟顶尖模型(GPT-5.5 和 Opus 4.7)的强劲性能,在编程(如 Terminal-Bench 2.1 达 75.3)和长时任务(GDPval 达 1585)任务上表现优异。
榜单:Nex-N2 由我们自行评测获得,其他模型分数从官方获取
二、统一智能体思维框架
模型正在从会思考转向会能动。核心问题不再是“模型能否想得足够久”,而是“模型能否以一种支撑有效行动的方式去思考”。多数现有模型只是把智能体能力叠加在一个为推理而优化的模型之上,并未真正打通,Thinking 在 Agent 任务里要么形同虚设,要么一味冗长,把简单动作也过度推理;同时,不同场景各用一套推理风格,跨场景表现不稳定。这不利于高鲁棒地执行真实任务。Nex-N2 将推理与行动纳入到同一套思维机制中,将思考与执行融会贯通。N2 的 Thinking 采用简洁、清晰、重点突出的速记风格,强化逻辑转折与关键信息,使推理更紧凑高效,并能稳定转化为鲁棒的执行动作,从而提升最终表现。
1.Adaptive Thinking:基于任务复杂度的自适应推理
Nex-N2能够自主决定是否开启 Thinking,并动态调控推理强度。相比强制开启,Adaptive Thinking 在保持任务完成率的同时,显著降低了推理 Token 消耗。
●按需触发:面对简单的文件读取或格式化输出,模型跳过冗余推理,直接执行;面对需要多步规划的复杂决策,模型自动进入深度思考模式。Nex-N2-Pro 在 Search、SWE、OpenClaw 任务上的思维链开启率分别为 83%、87% 和 78% 。
●强度自适应:在同一条 Agent 轨迹中,不同轮次的推理深度随任务阶段动态变化。例如:在搜索任务的前期规划阶段进行深度推理,在中期信息收集阶段快速执行,在最终综合阶段再次深入思考。
Nex-N2-mini 为例,相较于强制关闭思维链,Adaptive Thinking下的模型效果显著提升,与强制每轮开启思维链相比性能持平甚至略好,但是整体 Token 花销可以节省约20% 。
*没有上下文压缩
在Nex-N2-mini 上实现
2.Coherent Thinking:推理和行动,同一种思维
多数现有模型的 Thinking 能力是割裂的,搜索场景的推理风格、Coding 场景的推理风格、通用 Agent 场景的推理风格各自为政。切换任务类型时,模型需要重新适应,导致跨场景表现不稳定。Nex-N2 实现了 Thinking 范式的全局统一。无论是 Search、Coding 还是 Agentic Tool Calling,模型的思维链遵循一致的结构范式:目标分解、状态追踪、策略调整、自我校验,这种优势在混合任务(如一次代码任务中穿插搜索和工具调用)中尤为突出。
(本文长图/动图/视频详情可见公众号推送:https://mp.weixin.qq.com/s/H07ZKPMfCVOVddxDYfmIZQ)
三、端到端运行案例展示
我们来看看 Nex-N2 在端到端交付中的实际表现。1.自我进化
我们测试了 Nex-N2-Pro 编写 SQL 解释器的功能。模型需要写一段 Python 代码正确解析 SQL 语句,从数据库中查询正确结果。基于 Codex 框架和 SQLite 的 Sqllogictest 测试套件,我们在固定间隔对不同模型编写的解释器进行测试。在相同的迭代时间内,GPT-5.5 最高通过率为 80.4%,Nex-N2-Pro 则位于其后,达到了最高 69.0% 的通过率。Nex-N2-Pro 在这个过程中编写测试,修改解释器实现,在 10 分钟左右实现了 WHERE, JOIN 和 SUBQUERY 子句,之后经过一段时间的迭代实现了 Qualified name 和 Table alias 功能。
2.游戏开发
在游戏开发场景,Nex-N2-Pro 设计了一个以主 Agent 为核心的多智能体协作流程,以一个主 Agent 主导完成游戏的设计与开发,调度三个子 Agent 分别从玩法、性能、体验等不同维度测试,将问题回传主 Agent 迭代修复,直到产出一个完整、稳定、可玩的成品。多智能体协同、长链路规划、自主发现并解决问题,正是复杂任务最考验模型的地方。以下这款“巫师之殇”就是这样诞生的。用户只输入了素材库和几句想法,Nex-N2-Pro 便端到端完成了从设计、测试到修复交付的全过程。
3.小程序开发
在产品设计场景,用户提出自然语言需求:“做个 AI 健身减肥管理 iOS 原型,4 个核心屏幕要真能点击”,Nex-N2-Pro 自主规划出今日总览、今日计划、教练、我的进度四个完整屏幕,并为每个屏幕设计了差异化的信息架构:总览用深色 hero 卡承载核心数据,计划页用时间线串联饮食与运动,教练页用对话式交互传递建议,进度页用列表呈现长期趋势。底部 Tab 栏、卡片跳转、返回导航均实现了真实可点击的状态流转。
4.深度研究与PPT生成
基于 Claude Code 框架,Nex-N2-Pro 根据研究目标搜集一份 SpaceX IPO的相关资料并整理,把 SpaceX 的业务、技术、财务、估值、治理、竞争、里程碑、愿景重新组织成 12 页叙事结构,使用 SVG 进行绘图,并最终转化为完全可编辑的 pptx 格式。
5.复杂前端能力
Nex-N2-Pro 可以完成复杂的前端代码开发工作。用户输入指令“帮我用 HTML 做个3d机械臂,要功能完整,逻辑通顺,关节点击可以旋转”,Nex-N2-Pro 便可以一气呵成完成复杂功能的模拟,在视觉表现和逻辑复杂度达到专业水准。
6.模型和Harness结合
在复杂全栈开发场景中,基于自研编程 Harness North Coder ,Nex-N2 自动将需求拆解为约 100 个 RFC,明确各自的优先级与依赖关系,实现自主调度、并行执行、回收依赖。通过 North Coder,用户可以实时看到上百个任务的状态流转,前端、后端、Agent Runtime 各条线并行开工,每个 RFC 端到端地完成方案设计、编码实现与自我验证,最终汇聚成一个完整可运行的项目。
四、写在最后
Nex-N2 不是一次增量升级,而是对 Agent 模型训练范式的重新思考。Agentic Thinking 让模型的推理从被动触发变为主动适应,从场景割裂走向全局统一,从数据堆砌进化为结构迁移。我们相信,真正强大的 Agent 模型不是在每个场景上分别堆砌能力,而是掌握了一种通用的认知范式:在合适的时刻、合适的方式、合适的深度去思考和行动。团队将持续开源 Nex 开发过程中使用的环境、工具仿真、数据管线等。
欢迎持续关注项目主页:https://nex.sii.edu.cn/
