首个多模态统一CoT奖励模型来了,奖励能力大幅跃升,已全面开源

2025.05.15阅读量:13

科研进展


上海创智学院与复旦大学、上海AI Lab、腾讯混元联合提出全新研究工作UnifiedReward-Think,构建出首个具备长链式推理能力的统一多模态奖励模型,首次让奖励模型在各视觉任务上真正“学会思考”,实现对复杂视觉生成与理解任务的准确评估、跨任务泛化与推理可解释性的大幅提升。学院2024级博士生王逸彬是该工作的主要完成人。

论文题目:Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

项目主页:https://codegoat24.github.io/UnifiedReward/think

论文链接:https://arxiv.org/pdf/2505.03318

GitHubhttps://github.com/CodeGoat24/UnifiedReward

模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a

数据集:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede