10天100篇研究论文,FARS提前完成预定目标

2026.03.05阅读量:10

科研进展


FARS 研究项目列表:https://analemma.ai/fars

FARS GitLab:https://gitlab.com/fars-a


2月12日,上海创智学院孵化的日行迹智能科技发布FARS(Fully Automated Research System)。


在FARS启动228.5小时后,第100篇研究论文生产完成。


一、T+ 228:28:33


FARS完成100篇研究论文


在本次公开部署实验中,FARS生产 100篇研究论文 累计用时 228小时28分33秒 ,总消耗Token数达到 114亿 ,总成本为 10.4万 美元,期间FARS共生成 244个 Hypothesis(假设)


平均来看,每篇论文的生产时间约为 2小时17分5秒 ,消耗约 1.14亿 Token,成本约为 1040 美元。


二、论文质量评估


日行迹使用斯坦福大学开发的Agentic Reviewer (paperreview.ai) 按照ICLR评审标准对FARS产出的100篇论文进行了AI评审。


Stanford Agentic Reviewer在ICLR 2025的评审数据上进行训练,并在测试集上计算Spearman相关系数,结果如下:

·两位人类审稿人之间的相关性:0.41

·AI与人类审稿人之间的相关性:0.42

该结果表明AI审稿质量已经接近人类水平。


从整体评审结果来看,FARS产出的论文得分区间为 3.0–6.3分 ,平均得分为 5.05分 。其中,分数主要集中在 5.2分附近(出现频次最高,约57次),少数论文得分较低(3.0–4.5分),也有极少数论文获得 6.0分以上 的高分。


FARS本次生产的100篇研究论文在paperreview.ai上的得分分布


已完成研究项目的研究提案、实验代码、最终论文及AI评审结果均已更新至FARS官网。


可在https://analemma.ai/fars查看FARS所有研究项目的产出和AI评审结果


本次FARS部署以“短论文”为产出目标,并不完全适用ICLR等学术会议的评价标准,因此Stanford Agentic Reviewer等采用现有学术会议评价标准的“AI审稿人”的评估结果仅供参考。日行迹正在同步进行人工质量评估,将在评估结束后向社区分享评估结果。


FARS仍在持续运行,加入群聊一起围观AI做科研,见证自动研究系统进入现实世界。