AI能画图讲题吗？首个大模型图文教学生成与评测框架发布

2026.04.22阅读量：29

科研进展

系统输入输出全貌

一道几何题，文字步骤写得再清楚，有些学生就是转不过来。配上图，往往一眼就懂了。这不是玄学，认知科学有明确解释：大脑处理视觉信息和语言信息走的是两条相对独立的通道。图文同时呈现，两个通道并行工作，认知负荷更低，理解更快，记得更牢。这是认知负荷理论、双重编码理论和多媒体学习原则的共同结论。问题是：配图讲题往往耗费老师大量时间，能大规模生产高质量图文讲解的工具几乎没有。现有 AI 教育工具各有缺口——纯文字答题助手没有图；视频讲题系统制作成本极高；通用图像生成模型（如 DALL·E）画不出几何精度要求的教学图。

那大模型能不能做到这件事？给它一道 K-12 题目，它能自动生成图文交织的讲解文档吗？面对这个挑战，上海创智学院2025级博士研究生毕淑真迎难而上，构建了 EduIllustrate，做出了系统性地回答。

一、研究做了什么?

EduIllustrate 包含三个部分：230 道精选题目、一套标准化生成流程、以及一个8 维度评测框架。

四阶段生成协议概览

题目来自 K12-Vista 数据集，覆盖数学、物理、化学、生物、地理五科，小学、初中、高中三个学段，共 230 题。筛选标准很明确：图能传达文字无法直接表达的空间或关系信息，有清晰的标准答案，题型足够多样。

知识点分布图

二、如何让大模型"画对图"?

直接让大模型"帮我配图解释这道题"，效果往往不理想——图和题对不上，或者前后几张图风格完全不一致，读起来比没有图更累。毕淑真及其团队设计了一套四阶段生成流程，将任务拆解为可控的子步骤。

生成协议流水线详图

01 第一阶段：结构化提纲

模型先把题目转化为 XML 格式的提纲，文字解释块和图示规格块交替排列。只有在图示真正有助于理解时才规划配图，不是每一步都配。

02 第二阶段：实现规划（只做第一张图）

这是整个流程的核心设计。如果每张图都独立规划，各自发明自己的视觉风格，前后一致性就无从保证。因此规划只针对第一张图：确定配色方案、标注风格、线条规范、学科专用惯例（如几何的直角标记、物理的向量箭头）。这套"视觉风格手册"随后被所有后续图继承。

03 第三阶段：代码生成与渲染

第一张图优先渲染，其完整 Manim 代码作为上下文，后续图并行生成，但都以第一张图为视觉锚点。

04 第四阶段：文档组装

文字块与渲染图像按顺序拼合成 Markdown 文档，无需大模型参与。这种“顺序锚定“设计的效果在消融实验中得到了验证：与"每张图完全独立并行生成"相比，顺序锚定使视觉一致性提升 13 个百分点，同时输入 token 减少 51%，成本降低 47%。下面这组对比图说明了问题：同一道四棱锥题，顺序锚定的两张图是同一个锥体——第二张只是在第一张的基础上高亮了截面；而全并行基线的两张图是两个画法不同的锥体，学生需要在脑子里强行对应，认知负荷反而更高。

三、怎么评价"讲得好不好"?

研究设计了一套 8 维度评分体系，每个维度 0–5 分，换算为百分比报告。

文字质量 4 维：正确性与完整性（推理过程和结论是否正确）、逻辑连贯性（推理步骤是否自然衔接）、教学有效性（语言是否符合对应学段、是否有效引导理解）、排版清晰度（数学符号和格式规范）。

视觉质量 4 维：图题对齐（图是否忠实呈现题目的几何或物理设置）、元素布局质量（有无重叠、间距是否合理）、视觉一致性（多张图之间风格是否统一）、图文协调性（文字引用与图示内容的契合度）。

评测使用 Gemini 3.0 Pro Preview 作为自动裁判（温度=0）。为验证 AI 裁判的可靠性，研究另外邀请了 20 位评分员（15 名理工科研究生和 5 名教育学博士生）对 30 道题进行人工评分，产生4200 条独立判断。

四、测了 10 个模型，发现了什么?

10 个主流大模型（包括 Gemini、GPT-5、Claude、Kimi、Qwen 系列、Mistral 系列）在完整 230 题上跑完，结果如下：

综合分取 8 维度几何平均值，任何一个维度极低都会拉低总分。

10模型8维度雷达图

几个值得关注的发现

●图题对齐是最大的视觉挑战

Mistral 系列图题对齐仅 23.8%，Qwen3.5-35B 也只有 39.6%。让图真正"画对题意"而非仅仅"看起来像那么回事"，是当前大模型的核心视觉瓶颈。

●题越难，图越难画准

小学题得分普遍高于初中，初中高于高中。数学最高，地理最低。

●教学有效性是所有模型的共同短板

得分范围仅 30%—78%，即便最强的 Gemini 也只有 78.4%。大模型可以"答对题"，但用符合对应学段认知水平的语言、用有效的教学策略"讲清楚题"——这件事对所有模型都难。

四、AI 裁判靠谱吗?

人工评估打分系统

人工评测的数据给出了明确答案：可信度因维度而异。

逻辑连贯性（ρ=0.89）和图题对齐（ρ=0.83）与人类评委高度吻合，AI 裁判可信。布局质量和视觉一致性则是明显短板——元素重叠、标签错位这类低层次视觉瑕疵，人类一眼能发现，视觉语言模型往往忽略。研究还比较了用 Gemini 打分和用 GPT-5 打分的差异：两个模型都存在自我评分偏高的倾向，但 Gemini 的自我偏好（+9.2%）远小于 GPT-5（+20.6%），且不影响整体排名，因此选 Gemini 作为主裁判。

五、贵的一定好吗?

成本-质量散点图

Kimi-K2.5 是性价比最优的选择：每题 $0.12，综合得分 80.8%，以 Gemini 四分之一的成本实现了九成的质量。相比之下，Claude Sonnet 4.5 每题 $0.41，综合得分却只有 57.8%——比 Kimi 贵 3 倍多，得分低 23 个百分点。最便宜的 Ministral-3-14B 只需 $0.01/题，但成功生成率仅 17.4%，实际可用性极低。

各阶段成本分解显示，场景渲染是所有模型中占比最大的成本来源。

各阶段成本分解图

六、还差在哪里?

研究本身也明确指出了当前的局限：流水线输出的是静态图片，无法覆盖动画的时序和节奏；评测框架对布局质量和视觉一致性的定义仍需完善（人类评委之间的一致性也偏低，说明这两个概念本身还没有被精确定义）；现有系统对所有学生输出同样的图文讲解，无法根据个体基础做调整。后续方向包括：引入多轮对话和苏格拉底式追问，以及根据学生画像生成个性化的图文解释策略。AI 教育的下一个问题，不是"答对题"，而是"讲清楚题"。这个问题比想象中更难，也因此更值得认真对待。

●项目主页：https://ecnu-innospark.github.io/EduIllustrate/

●数据集：https://huggingface.co/datasets/keqianli/EduIllustrate

●论文链接：https://arxiv.org/abs/2604.05005

科研创新