数据也要“进化”吗?
在 AI 行业疯狂追逐"更多数据"的今天,一个往往被忽略的认知是:模型的上限由数据决定,但数据的价值由处理深度定义。
同样一篇科学论文,简单去重过滤后喂给模型,可能只是"看得懂的文字";但如果用大模型重建其隐藏的推理链、释义晦涩的术语、补全缺失的背景知识——它就变成了"可被深度学习的智能燃料"。这两者的差距,在实验中体现为:数倍的性能增益差异。
来自上海创智学院(SII)刘鹏飞老师团队,今日发布技术报告《Data Darwinism(数据进化论)》,首次将数据处理重新定义为"永恒演化过程",提出从原始采集到世界合成的十级进化体系(L0-L9)。基于该框架,团队:
·构建了900B tokens的高质量语料Darwin-Science,并开源其中496B tokens及全套加工方案, 并在20多个专业评测中取得了平均2.95分的显著性能跃升
·开源了3B/7B的重新预训练模型daVinci-origin,为后续研究提供一个更干净验证数据质量的基模
·开源了15万的科学评估测试集 Darwin-Science-Eval
·技术报告:
https://github.com/GAIR-NLP/Data-Darwinism/blob/main/report.pdf
·开源链接:
https://github.com/GAIR-NLP/Data-Darwinism
一、为什么需要"数据进化论"?
基础模型的性能从根本上取决于其训练数据。然而,当模型架构和 Scaling Law 已被广泛研究并形成完善的理论体系时,如何将原始数据转化为高质量训练语料的方法论却仍然支离破碎、缺乏理论支撑。
这个领域面临着一个核心矛盾:理论空白与实践混乱并存。尽管学术界和工业界已经积累了大量的数据处理经验——从去重算法到质量评分模型,从格式归一化到内容过滤——但这些操作始终缺乏一个系统化的框架来组织、分类和推理。我们无法清晰地回答:这些操作之间的本质区别是什么?它们应该按什么顺序执行?每种操作对模型能力的影响机制是什么?
这种理论缺失带来了三重代价:
·代价一:重复试错的工程浪费
从业者被迫依赖临时性的经验实验(ad-hoc experimentation),在没有原则指导的情况下盲目尝试各种数据处理组合。同样的轮子在不同团队、不同项目中被反复发明,宝贵的工程资源消耗在低效的试错循环中。
·代价二:不可复现的经验黑箱
由于缺乏统一的分类体系和术语规范,数据处理经验难以标准化记录和传播。一个团队的成功实践往往无法被其他团队准确复现,知识积累陷入"经验传说"而非"科学方法"的困境。
·代价三:看不见的因果关系
更深层的问题在于,我们无法建立数据转换操作与下游模型能力之间的原则性关联。哪些处理能提升推理能力?哪些能增强知识记忆?这些问题的答案依然模糊不清,阻碍了数据科学从"炼金术"向"工程学"的跃迁。
二、科学数据:被浪费的智能宝库
这个理论空白在科学领域表现得尤为突出。科学文献代表了人类知识的最高浓度结晶——每一篇论文都凝聚了研究者多年的智慧积累,每一本教材都是知识体系的系统提炼。然而,在开源预训练语料中,科学内容的占比通常占比不足。
这不是因为数据稀缺。arXiv 每月新增数万篇论文,PubMed 收录超 3500 万篇文献,学术专著和教材的数字化存档也在持续扩大。真正的障碍在于系统性的获取、解析和可学习性壁垒:
·获取壁垒:学术出版物通常受版权保护,获取权限分散在数百家出版机构手中
·解析挑战:PDF 转文本的质量残缺、公式符号的乱码、复杂表格的结构丢失
·可学习性鸿沟:高度压缩的专家表述、隐藏的推理链条、专业化的术语系统
更关键的发现是:即使克服了前两个障碍,原始科学文本的可学习性依然极低。团队的诊断实验揭示了一个反直觉的现象:经过初步过滤(L0-L3)的科学数据在预训练中提供的性能增益几乎可以忽略不计。在标准评测和分布对齐评估中,使用原始科学数据训练的模型表现与基线相当,有时甚至更差。
这一发现指向了一个根本性挑战:科学文献的固有特征——高概念压缩度、隐性推理链、面向专家的表述方式——使得原始内容对语言模型来说基本上是不透明的。就像让小学生直接阅读博士论文,信息都在那里,但认知跨度太大,学习几乎不会发生。
三、Data Darwinism(数据进化的达尔文主义):系统化的进化框架
正是为了解决这些系统性问题,团队提出了 Data Darwinism(数据进化论)——一个将数据处理重新概念化为永恒演化过程的统一框架,而非一次性工程任务。
框架的核心是一个十级层次体系(L0-L9),沿着多个基本维度系统地组织数据操作:
·维度一:从筛选到生成
低层级(L0-L3)聚焦于过滤和保留原始内容
高层级(L7-L9)过渡到合成全新的环境和世界
·维度二:从保存到转换
中间层级(L4-L6)引入模型驱动的精炼,主动重写和丰富内容,同时保持语义保真度。
·维度三:从人类为中心到机器驱动
随着数据在层次中上升,处理方式从基于规则的启发式转向能够进行认知推理和上下文补全的复杂生成模型。
这个框架的革命性洞察在于协同进化反馈循环:更强大的模型能够实现更复杂的数据处理技术(例如,使用先进的大语言模型进行质量评估、内容重写和推理增强),这反过来又为下一代模型产生更高质量的训练数据。在这种视角下,"数据质量"不是静态属性,而是随着模型能力边界不断扩展的动态目标。
图:Data Darwinism 数据处理层级全景图
四、理论根基:Data Darwinism ——从筛选到合成的十级进化
在 Data Darwinism 框架下,数据处理不再是单次的工程任务,而是一个永恒的演化过程。我们定义了十个递进层级,勾勒出数据从“原始信号”到“智能世界”的进化路径:
Data Darwinism 框架将数据处理重新定义为三个递进阶段,共十个层级:
阶段一:从筛选到保留(L0-L3)—— 夯实地基
这一阶段聚焦于在海量噪音中识别并保留原始信息的精华:
·L0 数据采集:处理 PB 级异构数据,保留完整原始信息以最大化下游处理灵活性
·L1 格式归一化:将 PDF、HTML 等异构格式转化为统一表示,最大程度保留文档结构
·L2 规则过滤:采用确定性规则和高效去重算法(如 MinHash)过滤显性噪音
·L3 轻量模型筛选:利用轻量分类模型实现领域分类、质量评估及教育价值筛选
阶段二:从保存到转换(L4-L6)—— 认知重塑
中间层级引入生成式模型,将静态语料转化为高保真、易学习的知识:
·L4 生成式精炼:引入大模型对内容进行纯化与结构修复,严格遵循原意不引入外部知识
·L5 认知补全:重建思维链,将隐性的逻辑推导显性化,释义专业术语,引入教学化类比
·L6 上下文补全:系统性链接外部参考文献与背景知识,构建自包含的知识
单元
阶段三:从转换到合成(L7-L9)—— 创造世界
最高层级迈向动态合成,为 AI 打造无限的仿真训练场:
·L7 环境合成:构建可运行的代码沙盒或实验仿真环境
·L8 生态合成:搭建多智能体交互生态,通过协作、辩论等行为产生涌现性数据
·L9 世界合成:构建具备物理法则和逻辑一致性的全仿真模拟世界
Data Darwinism 揭示了一个深刻的循环:更强大的模型 -> 驱动更高级的数据处理 -> 产生更高质的训练燃料 -> 催生下一代更强模型。
在这种视角下,“数据质量”不再是一个静态属性,而是随着模型能力边界不断前移的动态目标。每一代模型的进步,都在重新定义什么是“高质量”的数据。
五、实战验证:900B 科学语料库的构建
将理论框架落地到实际系统,团队面临的第一个挑战是:科学领域极度缺乏大规模、高质量的开源原始数据。
1.L0-L3:极致拓荒
团队从最底层的数据采集开始深耕:
·整合数百万册学术专著与教材
·集成 arXiv、S2ORC、PubMed 等多源学术数据库
·利用 7B 视觉语言模型执行高精度 OCR 提取
·将海量碎片化的原始像素重构为大规模机器可读文本
经过 L0-L3 的基础处理,团队获得了规模可观的科学文本语料。但实验揭示了一个残酷的现实:简单过滤后的科学论文,性能增益仅为 +0.13 分。
2.L4-L5:跨越"学习力鸿沟"
为了破解这一难题,团队必须跨越传统的"筛选"逻辑,转而通过生成式技术对内容进行"认知重塑":
(1)L4 级生成式精炼:利用大模型作为"忠实修复者",在剔除元数据、导航元素等干扰噪音的同时,系统性修复文档格式与结构残缺。关键原则是保持原意,不引入外部知识。
(2)L5 级认知补全:这是关键的质变层级。团队开发了系统化的"教学化转换"流程:
·重建推理链:将省略的推导步骤显性化展开
·释义专业术语:在首次出现时给出通俗解释
·引入教学类比:用直观比喻降低理解门槛
·补全背景知识:链接相关概念形成知识网络
实验证明,引入 L4-L5 处理后,性能增益从 +0.13 跃升至 +1.36 分。
最终,团队成功构建了经过 L0-L5 全流程处理的高价值语料库 Darwin-Science,总规模达 900B tokens,涵盖数学、物理、化学、生物、计算机科学等 9 大核心学科。
图:Darwin-Science 数据处理管线
六、验证框架:透明基模与 150K 科学评测
为了严谨验证层级化数据处理的效果,我们建立了一套受控实验框架,旨在解耦“数据质量”与“模型配置”的影响:
·全透明基模 daVinci-Origin (3B/7B):我们从零训练了具备强通用能力的基座模型。其 5.37T tokens 的预训练数据由通用网页、数学和代码语料组成,在来源上完全不涉及任何论文类学术数据。这套“零污染”的底座如同纯净的实验室环境,确保了后续所有的性能提升都能明确地归因于数据处理策略。
·科学评测 Darwin-Science-Eval:我们从独立预留的学术文献中构建了包含 150K 科学领域的评测集,涵盖 9 大核心学科。该评测集专门针对复杂、分布对齐的领域理解力进行设计,能够比通用榜单更精准地捕捉到深度知识增益。
图:Darwin-Science-Eval 评测集构建管线
七、主要实验结果:层级演化释放显著数据潜能
在 600B tokens 的持续预训练实验中,基于 Data Darwinism 框架处理的 Darwin-Science 语料库展现了卓越的增益效果:
·全方位性能爆发:相比强基准线,我们的3B模型平均提升了+2.12 分,7B模型提升了+2.95 分。在分布对齐的 Darwin-Science-Eval 专属评测集上,增益更是被放大超过三倍,分别达到了+5.60和+8.40分。
·层级演化释放价值:实验证明,基础的过滤(L0-L3)对模型性能几乎没有收益。然而,通过生成式精炼(L4)并跨越至认知补全(L5),累计性能增益最终实现了 +1.36 分 的显著增长。这印证了系统性提升数据处理层级是解锁科学数据潜能的核心。
·无饱和的持续学习:在整个600B tokens 的训练窗口内,性能增益曲线始终保持上扬,完全没有出现回报递减或饱和迹象。这意味着经过高阶处理的语料在大规模训练中具有极强的韧性与持续价值。
·大模型“识货”效应:模型规模是利用复杂知识的关键前提。较大的模型(7B)展现出比3B模型更强的科学数据吸收能力(增益 +2.95 vs +2.12),体现了高密度知识获取的规模依赖性。
图:Davinci-Origin-3B 与 Davinci-Origin-7B 模型的性能增益。 在两张图中,y轴均表示相对于对应基础模型的相对提升。
图:不同数据处理策略的训练效果对比。
八、深度分析:给实践者的四条实证建议
基于受控实验与大量消融测试,我们提炼了以下实证指南:
·数据配比:实验表明,50% 的科学内容占比能在保持通用能力的同时,最大化领域专业深度。书籍与论文的内部配比表现出高度灵活性,但建议同时包含二者,以发挥二者在知识体系上的互补价值。
·处理策略:执行L5认知补全时,教师模型的“智慧”直接决定了数据质量。使用Qwen3-235B作为生成模型,比 GPT-OSS-120B的模型能多带来 +0.52 的额外增益。
·模型属性:科学数据的价值提取高度依赖模型能力:7B模型获得的增益显著高于3B模型。同时,将上下文扩展至 32K 并在充分适应后,能进一步解锁 +0.80 的性能优势。
·评测对齐:标准通用榜单往往会严重低估专业语料的价值。使用分布对齐的领域专属评测(如Darwin-Science-Eval),所能捕捉到的性能信号比标准评测强 3 倍以上。
图:针对数据混合比例的以数据为中心的分析 。
图:(a) 科学论文处理策略剖析:内容清洗与教学化增强的对比。(b) 不同上下文长度下训练模型的对比。(c) 从不同训练起始检查点开始,Sci-Mix 相对于基准线的性能增益。
九、未来展望:迈向系统化的数据演化
研究团队计划在多个方向持续探索:一是进一步完善L6–L9的高阶层级建设,探索环境合成与仿真模拟在科学发现中的实际应用;二是将 Data Darwinism 框架扩展至多模态领域,系统化处理科学文献中的复杂图表与实验数据;三是深入解耦数据“可学习性”的底层机制,为预训练数据的高效筛选提供更精准的量化指标。
Data Darwinism 的提出,旨在将数据处理从“炼金术”转向系统化的演化科学。我们相信,通过模型与数据的协同演化——不断用更强的模型去提纯、重塑更高质量的数据——我们将能更有效地解锁人类知识宝库中隐藏的智能潜能。
