首个多模态统一CoT奖励模型来了，奖励能力大幅跃升，已全面开源

2025.05.28阅读量：716

科研进展

上海创智学院与复旦大学、上海AI Lab、腾讯混元联合提出全新研究工作UnifiedReward-Think，构建出首个具备长链式推理能力的统一多模态奖励模型，首次让奖励模型在各视觉任务上真正“学会思考”，实现对复杂视觉生成与理解任务的准确评估、跨任务泛化与推理可解释性的大幅提升。学院2024级博士生王逸彬是该工作的主要完成人。

论文题目：Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

项目主页：https://codegoat24.github.io/UnifiedReward/think

论文链接：https://arxiv.org/pdf/2505.03318

GitHub：https://github.com/CodeGoat24/UnifiedReward

模型：https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a

数据集：https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

科研创新

首个多模态统一CoT奖励模型来了，奖励能力大幅跃升，已全面开源