自Anthropic推出Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI也相继推出Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。
业界普遍认为,需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破——这可能意味着大量的人工轨迹标注,以及大规模虚拟机环境的构建,以支撑智能体的学习与优化。
然而,来自上海创智学院和上海交通大学的最新研究却给出了一个非共识答案:仅需312条人类标注轨迹,使用Claude 3.7 Sonnet合成更丰富的动作决策,就能激发模型241%的性能,甚至超越Claude 3.7 Sonnet extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。
论文标题:Efficient Agent Training for Computer Use
论文地址:https://arxiv.org/abs/2505.13909
代码地址:https://github.com/GAIR-NLP/PC-Agent-E
模型地址:https://huggingface.co/henryhe0123/PC-Agent-E
数据地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E