中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考

2025.06.06阅读量:13

科研进展

framework.png

在人类的认知过程中,视觉思维(Visual Thinking)扮演着不可替代的核心角色,这一现象贯穿于各个专业领域和日常生活的方方面面。这种视觉思维能力的独特之处在于,它能够创造概念间的独特组合和新颖连接,帮助我们发现仅通过纯文本推理无法获得的洞察和创意。而在现代认知科学中,这种「深思熟虑」往往需要多模态的思维过程来支撑。

如今,AI 也迈出了这一步:上海创智学院、上海交通大学、复旦大学和 Generative AI Research Lab(GAIR)的团队提出Thinking with Generated Images,让大模型能够自发生成视觉中间步骤,像人类一样用「脑内图像」进行跨模态推理。

640.png

  • 论文链接:https://arxiv.org/abs/2505.22525

  • 代码链接:https://github.com/GAIR-NLP/thinking-with-generated-images

  • 模型链接 1:https://huggingface.co/GAIR/twgi-critique-anole-7b

  • 模型链接 2:https://huggingface.co/GAIR/twgi-subgoal-anole-7b