开源≠透明:我们能下载模型,却看不到塑造模型的科学过程。
过去两年,大语言模型领域呈现出一个耐人寻味的悖论:一方面,开源模型的权重文件越来越容易获取——从 LLaMA 到 Qwen,研究者可以下载数十个不同规模的模型;另一方面,这些模型是"如何"被训练出来的——数据如何处理、训练过程如何调整、哪些尝试失败了——这些关键信息却依然隐藏在技术报告的简短描述中。更值得关注的是,当后训练技术成为研究热点时,真正决定模型能力上限的预训练阶段却成了被忽视的"黑箱"。哪些数据处理策略有效?何时调整训练配方?哪些假设被证伪?这些科学探索中最宝贵的知识,在当前的开源生态中几乎完全缺失。
来自上海创智学院的 GAIR 研究团队试图打破这一困境。他们发布的 daVinci-LLM(达芬奇·LLM) 不仅公开了模型权重,更完整披露了 200 多次消融实验的结果、完整的数据处理管道、训练过程中的决策逻辑,甚至包括那些未能成功的尝试——这些探索过程的完整公开,让开源社区能够理解"为什么这样训练"而不仅是"训练出了什么",向着预训练的科学化方向迈出了关键一步。
●技术报告:
https://github.com/GAIR-NLP/daVinci-LLM/blob/main/report.pdf
●开源链接:
Github:https://github.com/GAIR-NLP/daVinci-LLM
模型:https://huggingface.co/SII-GAIR-NLP/davinci-llm-model
数据集:https://huggingface.co/datasets/SII-GAIR-NLP/davinci-llm-data
为什么预训练研究如此重要却被忽视?
图:预训练研究的透明度困境:商业模型仅提供API,开源模型公开权重但不披露决策逻辑,学术机构受算力限制。daVinci-LLM 在规模与透明度的交汇点进行系统性探索。
01 预训练决定能力上限
当前大模型研究存在一个普遍认知偏差:认为预训练只需建立基本语言能力,其他高阶能力可以通过后训练阶段大量微调来获得。但越来越多的研究证据表明,预训练阶段建立的能力基础,会在后训练中被持续放大而非被弥补。无论是数学推理、代码生成、还是多语言理解,如果模型在预训练阶段没有充分接触相关的数据和模式,那么即使在后训练阶段投入大量高质量数据进行微调,这些能力的提升也会受到明显限制。
预训练决定了模型的能力上限,后训练更多是在这个上限内进行优化、对齐和激发——而不是创造全新的能力维度。
02 预训练研究的结构性困境
OLMo 项目代表了学术界在开放预训练方面的重要努力。但学术机构面临结构性约束:一方面,持续性难以保障——项目制资助和人才流动使得长期稳定的算力投入和研究团队难以维持;另一方面,系统探索受限——系统性探索需要的不仅是算力本身,更需要不受短期产出压力约束的研究自由。与此同时,商业机构虽然拥有充足算力,但竞争压力迫使他们只发布最终结果,而不会公开完整的探索过程和积累的研究洞察。
系统性的预训练科学研究需要工业级的计算资源与学术级的研究透明度同时具备——而这两者在传统机构结构中难以兼得。
daVinci-LLM 正是基于这一认识展开:通过结合稳定持续的计算资源与不受短期竞争压力约束的研究自由,在工业规模与科学透明度的交汇点进行系统性探索。
daVinci-LLM:三个维度的完全开放
图:开源≠透明。虽然多数模型公开了权重,但预训练决策逻辑、消融实验和失败案例大多未披露。daVinci-LLM 公开完整的科学探索过程。
daVinci-LLM的工作围绕三个支柱展开,每个维度都致力于透明度与可复现性:
01 数据透明:Data Darwinism 框架
数据处理不是一次性工程,而是永恒演化:数据处理深度是与数据规模并列的关键优化维度。
图:预训练数据源与数据达尔文主义L0-L9框架的对应
数据质量决定模型能力,但领域内缺乏系统化的数据处理方法论。研究团队采用Data Darwinism 框架,这是一个将数据处理操作组织为 L0-L9 十级分类的原则性体系。该框架遵循一个清晰的演化逻辑:从选择和保留现有内容,逐步过渡到主动改写和丰富,最终达到从零合成新内容的能力。
完整的十级体系包括:
●L0(数据获取):从网络爬虫、代码平台、文档库等来源收集原始数据
●L1(格式标准化):将 HTML、PDF 等异构格式转换为统一的文本表示
●L2(基于规则的过滤):通过确定性规则移除明显低质量内容,如近重复文本、格式错误、非目标语言等
●L3(轻量模型过滤):使用轻量级模型评估教育价值、识别领域类型
●L4(生成式精炼):利用大模型生成式地去除结构噪声、修复文本片段,但严格保持原始语义
●L5(认知补全):让前沿 LLM 将隐含推理显性化,例如将专家文献中的压缩逻辑步骤展开成完整推导
●L6-L9(高阶合成):包括情境补全(整合外部知识)、环境合成(构建可执行验证环境)、生态系统合成(多智能体协作)、世界合成(完整模拟世界)——这些层级代表数据生成的理论前沿,本工作主要聚焦于 L0-L5
本工作使用的 7.5T+ tokens 训练语料完全可溯源:部分来自现有公开数据集,部分由团队自行处理并开源。更重要的是,团队为每个数据源标注了其对应的 Darwin Level,使处理决策系统化——研究者可以清晰看到每类数据当前处于哪个处理深度,是否还有进一步优化的空间,以及投入更高层级处理是否值得。
02训练透明:自适应的两阶段课程
图:跨各个训练阶段的完整训练轨迹
不同于固定配方训练,daVinci-LLM 采用动态监测、自适应调整的策略,根据能力发展动态调整数据组合。
📈 阶段 1(6T tokens):建立广泛基础能力。
团队每 5000 步评估所有 19 个基准测试,持续监测不同能力维度的发展动态。
关键发现:不同能力的饱和时间尺度差异极大——通用知识基准在前 1T tokens 内快速饱和,而代码和科学推理持续增长到 4T tokens 仍未完全收敛。基于这一观察,在 Stage 1 的后半段(Stage 1-2)显著增加了代码和科学数据比例,相应降低通用文本占比,将计算资源重新分配到仍在活跃学习的能力维度。
📈阶段 2(2T tokens):推理能力强化。
在 Stage 1 建立的基础上,团队发现单纯调整域比例已难以持续提升推理能力——这表明标准语料格式在当前处理深度下已接近集体饱和。因此 Stage 2 引入了新的数据格式:大规模结构化 QA 数据,并采用渐进式课程:
●Stage 2-1(1T tokens):平衡引入。QA、代码、科学数据各占 30%,另配 10% 高质量通用文本,在引入新格式的同时避免灾难性遗忘
●Stage 2-2(1T tokens):强化提升。将 QA 比例提升至 70%,在前一阶段建立的稳定基础上进一步增强逻辑推理能力
训练轨迹显示,这种自适应策略实现了高效的能力增长——Stage 2 在 2T tokens 内将整体性能大幅提升,最终使 3B 模型达到与 7B 模型相当的水平。
03科学透明:200+ 消融实验的系统探索
预训练中充满"看似合理"的假设:更多数据总是更好?专精与通用无法调和?评估指标总是可靠?系统性消融实验揭示:很多直觉可以被突破。
预训练中的许多关键决策缺乏公开的实证依据:数据处理到什么深度最有效?训练过程中何时调整策略?如何平衡专精与通用?哪些评估协议可靠?daVinci-LLM 通过超过 200 次受控实验,系统探索了这些基础问题。
📌 数据处理深度的价值
投入更高层级的处理,到底值不值得?实验发现,处理深度的价值高度依赖任务复杂度。L3 模型过滤在基础编程任务上带来明显提升,但对高阶任务效果有限。L4 生成式精炼对复杂推理效果显著——MATH 提升 7.0 分,但简单应用题仅 1.37 分,说明结构纯化对多步推理的不对称价值。L5 认知补全展现强领域对齐:从代码合成的 QA 提升编程能力但不迁移到科学领域,反之亦然。
图:不同领域的QA数据专注于增强该领域的模型能力
核心启示:数据处理深度是与数据规模并列的关键优化维度。在推理密集型任务上,提升处理深度往往比单纯扩大数据量更有效。
📌训练动态的自适应调整
不同能力的饱和时间尺度存在显著差异——通用知识 1T tokens 内饱和,代码和科学推理持续增长到 4T tokens 以上。这种差异使得自适应调整变得必要:当某项能力饱和后,减少对应数据比例,增加仍在学习的维度。但域比例调整的效果会逐渐受限。当所有标准语料格式都接近饱和时,继续调整比例已难以带来明显提升。此时需要"格式级创新":比如引入结构化 QA 数据,以新的数据形态突破瓶颈。
图:加入QA数据训练(Stage2)相比原形式文本继续训练(Stage1-3)给模型能力增长对比提升显著
核心启示:有效的预训练需要分层级的适应策略。初期可以通过调整域比例优化资源分配,当这一策略效果受限时,需要引入新的数据格式实现进一步突破。
📌 针对性强化与能力保持的平衡
针对性能力增强与通用能力保持之间存在天然张力。实验发现,数据混合呈现出微妙的平衡效应:平衡配置优于极端专精配置,因为不同领域数据在适度范围内协同增强,但过度集中某一领域会导致其他能力的退化。更关键的是,即使要进行针对性强化,直接的高浓度训练也会触发能力崩溃,而先建立平衡表征、再渐进强化的策略能够在稳定基础上实现激进强化,既获得专项提升又保持通用能力。
图:数据平衡混合设置带来了整体最佳的模型性能
核心启示:通过策略性的混合设计和渐进式强化,可以突破"要么泛化、要么专精"的二元困境。
📌 评估协议的可靠性边界
所有训练决策都依赖评估反馈,但评估本身可靠吗?团队发现,某些基准测试在特定训练配置下会出现异常波动,这种波动与模型实际能力无关,而是评估协议与训练分布的交互效应。例如,高浓度 QA 训练会改变模型的输出分布特征,导致基于困惑度的选择题评估异常下降,但生成式评估的同类任务却保持稳定。这提醒研究者:单一基准可能误导训练决策,可靠评估需要跨协议验证。
图:不同评测方法对模型能力的比较产生了不同的结果
核心启示:评估方法本身也需要被质疑和验证。当某个指标异常时,应该同时审视模型和评估协议的适配性。
这些探索形成了从数据质量到训练动态、从混合策略到评估有效性的完整研究链条。技术报告完整记录了所有实验配置、观察结果和决策逻辑,包括那些未能成功的尝试,提供了预训练决策的系统性实证依据。
实际效果:3B 模型的竞争性表现
3B 超越 7B 不是靠"炼丹"运气,而是科学化的必然结果:当数据处理、训练动态、混合策略都基于实证验证时,有限参数也能释放超额能力。
daVinci-LLM-3B 在综合评估中与 OLMo-3 7B 性能相当,显著超越同规模模型 LLaMA-3.2-3B。
表:daVinci-LLM-3B 与基线模型的能力表现
特别值得关注的是 MATH 基准(抽象数学推理)上的表现:daVinci-3B 大幅领先 7B 规模的 OLMo-3 以及同规模基线模型。这一显著差异不能简单归因于算力投入,而是预训练科学化探索的直接体现:
●L4/L5 数据处理将杂乱数学文本转化为逻辑结构清晰的推导过程,降低了模型提取基本模式的难度
●自适应训练动态在监测到通用知识饱和后,及时将计算资源重新分配到持续学习的推理维度
●两阶段 QA 强化在平衡基础上进行针对性强化,避免了单一维度提升导致的能力失衡
这印证了预训练科学化的价值——通过系统性探索和实证验证,可以让有限的模型规模发挥更大的能力潜力。
对开源社区的长远价值
daVinci-LLM 的贡献体现在三个维度:
01 完整的研究材料。
项目开源了模型权重、所有中间检查点、数据处理pipeline、自研数据集。这些材料让研究者能够深入分析能力涌现的具体时机、复现完整训练过程、或在此基础上进行扩展研究。
02 问题驱动的预训练科学探索。
通过将预训练中的关键决策转化为可系统验证的研究问题,本工作提供了数据质量、训练动态、混合策略等维度的科学探索。这些发现为预训练的科学化提供了可参考的依据,其他研究者在面对类似问题时,可以基于这些探索结果做出更有把握的选择。
03 可迁移的方法论基础。
Data Darwinism 框架、系统性探索方法、以及完整记录的成功与失败案例,共同构成了可复用的研究基础。研究者可以用这套体系评估自己的数据和策略,在公开的边界条件上继续探索,不必重复踩坑,这正是可积累的科学知识体系的基础。
未来展望
预训练的科学化,才刚刚开始。模型真的"理解"了任务,还是只是记住了模式?为什么泛化能力如此脆弱?预训练的能力边界在哪里?这些关于学习本质的基础问题,仍缺乏系统性的科学探索。daVinci-LLM 在透明化探索过程上迈出了一步。但预训练科学的真正建立,需要整个社区的开放协作——当探索过程成为常态、实证知识得以积累,预训练才能从"黑箱炼丹"真正成为"科学学科"。
