上海创智学院联合广州实验室(上海基地)、深圳河套学院等单位提出首个面向病毒基因组任务的核酸基础模型评测体系ViroBench

2026.06.02阅读量:10

科研进展

当核酸基础模型开始进入生命科学,它们已经被用于功能元件预测、基因调控理解、变异效应分析,甚至生物序列生成。但一个关键问题仍然没有被充分回答:这些模型真的能理解病毒吗?病毒基因组不同于一般基因组序列任务。它们高度多样、快速演化,并跨越不同核酸类型、宿主范围、分类层级和时间阶段。对于核酸基础模型而言,病毒不是一个普通下游任务,而是一场关于跨分布泛化、时序鲁棒性和生成可靠性的综合测试。针对这一挑战,上海创智学院牵头联合广州国家实验室(上海基地)、深圳河套学院、西湖大学等多家研究机构提出了面向病毒基因组任务的首个系统评测基准ViroBench。

项目信息

项目主页:https://sii-agi4s.github.io/ViroBench/

论文标题:ViroBench: Benchmarking Nucleotide Foundation Models on Viral Genomics Tasks

论文链接:https://arxiv.org/abs/2605.25388

GitHub:https://github.com/SII-AGI4S/ViroBench

一、需要 ViroBench?

过去几年,核酸基础模型迅速发展。从 DNABERT、Nucleotide Transformer、HyenaDNA,到 Evo、GenomeOcean、AIDO.DNA、LucaVirus 等模型,研究者已经拥有了越来越多能够处理核酸序列的大模型。但在病毒场景中,评测仍然存在明显缺口。一方面,不同研究使用的数据集、划分方式和指标并不统一,模型之间很难公平比较。另一方面,很多评测仍依赖随机划分,这可能让训练集和测试集中出现高度相近的病毒序列,从而高估模型能力。更重要的是,病毒具有很强的现实复杂性:模型不仅要识别已知病毒,还要面对新的属、新的时间阶段、新的宿主分布和不断演化的序列模式。因此,ViroBench 不是只想回答“哪个模型分数最高”,而是想回答三个更关键的问题:

第一,模型能否跨越病毒分类边界进行泛化?

第二,模型能否适应病毒随时间发生的分布变化?

第三,模型在生成病毒相关序列时,统计上像不像,生物学上又是否合理?

ViroBench 整体框架

二、ViroBench 评测什么?

ViroBench 围绕病毒基因组理解与生成建模两个方向,设计了 4 类核心任务和 18 个评测场景。在理解任务中,ViroBench 评估模型能否根据病毒序列预测其分类层级,包括 Kingdom、Phylum、Class、Order 和 Family 等标签;同时评估模型能否预测病毒可能关联的宿主类型,例如细菌、植物、人类/灵长类、家畜/伴侣动物、野生脊椎动物和节肢动物等。在生成任务中,ViroBench 进一步考察模型对病毒基因组序列分布的建模能力,以及在 CDS Completion 任务中补全蛋白编码序列的能力。评估指标不仅包括 Bits-per-Base、序列相似性和 K-mer 分布,也包括开放阅读框完整性、内部终止密码子以及结构层面的验证信号。换句话说,ViroBench 不只关心模型能否“预测正确”,也关心模型生成的病毒相关序列是否在统计上合理、在编码结构上自洽。

三、ViroBench 如何避免“虚高分数”?

为了更贴近真实病毒分析场景,ViroBench 设计了两类严格划分方式。

第一类是 Genus-disjoint Split。

训练集、验证集和测试集之间的病毒属不重叠。这样可以避免模型依赖近缘序列记忆,真正测试跨谱系泛化能力。

第二类是 Temporal Split。

按照病毒记录时间进行划分,让模型在较早时间的数据上学习,在较新时间的数据上测试。这更接近现实中的病毒监测任务,因为模型总是要面对未来新出现或新记录的序列。对于生成任务,ViroBench 进一步采用长度分桶,将序列划分为 Short、Medium 和 Long 三类,以观察模型在长序列建模和 CDS 生成中的性能变化。

四、我们评测了哪些模型?

ViroBench 系统评测了 66 个核酸基础模型,并加入一个 CNN baseline 作为传统模型对照,覆盖多种模型家族和预训练来源,包括:AIDO.DNA、AIDO.RNA、DNABERT、DNABERT-S、Nucleotide Transformer、NT v3、HyenaDNA、Caduceus、Evo、GenomeOcean、GENA-LM、GENERATOR、Genos、LucaOne、LucaVirus、OmniReg-GPT、RNA-FM、RiNALMo、RNABERT、MP-RNA 等。这些模型覆盖 DNA、RNA、病毒、多物种、噬菌体、非病毒语料等不同预训练背景,也覆盖 BERT、GPT、Hyena、Mamba、MoE、Diffusion 等不同架构范式。

实验结果

五、ViroBench 不只是排行榜

很多 benchmark 容易变成单一排行榜:谁第一,谁第二,谁第三。但 ViroBench 更关注“为什么”:模型在哪类病毒上失败?是在 DNA 病毒上更差,还是 RNA 病毒上更差?是分类任务更难,还是宿主预测更难?是跨属泛化失败,还是时间漂移失败?是生成序列不够像,还是看起来像但编码结构不合理?通过分类任务、生成任务、长度分桶、时间划分、谱系划分、多指标评估和结构验证,ViroBench 提供的是一个更细粒度的模型诊断框架。它既可以帮助研究者比较不同核酸基础模型,也可以帮助未来模型设计者理解:病毒场景到底需要怎样的数据、怎样的架构和怎样的评测方式。

六、三个关键发现

发现一:模型在病毒分布漂移下会明显退化

在常规设置下,部分基础模型可以取得不错表现。但当测试条件变得更接近真实世界,问题就出现了。在 Genus-disjoint 和 Temporal Split 下,许多模型性能显著下降,尤其是在宿主预测任务中,时间漂移会带来更明显的性能坍塌。这说明当前核酸基础模型虽然可以捕获一部分病毒序列模式,但在面对新的谱系、新的时间阶段和快速演化的病毒时,泛化能力仍然不足。换句话说,模型并不是完全不会“读”病毒,而是还没有真正稳定地“理解”病毒演化。

发现二:低困惑度不等于生物学有效

在生成任务中,ViroBench 发现了一个重要现象:模型在统计上生成得像,并不代表生成结果在生物学上合理。一些模型可以在 BPB 等似然指标上表现较好,但在 K-mer 分布、CDS 完整性或结构一致性上出现偏差。这意味着模型可能学到了粗粒度的核酸分布,却没有稳定掌握更高阶的编码约束、功能片段结构和蛋白层面的限制。ViroBench 进一步使用 AlphaFold3 对部分生成 CDS 对应的蛋白结构进行验证。结果显示,整体结构保真度仍然偏低,只有少量生成序列能够恢复接近天然序列的折叠结构。这提醒我们:评价病毒序列生成模型,不能只看“像不像”,还要看“是否满足生物学约束”。

发现三:数据多样性比单纯堆参数更重要

一个非常有意思的结论是:在病毒任务中,预训练数据的分类多样性往往比模型参数规模更关键。为了验证这一点,我们进一步构建了轻量级模型 ViroHyena,并使用更加多样化的病毒相关语料进行预训练。结果显示,即使参数规模不大,经过更合适数据训练的 ViroHyena 也能显著超过原始 HyenaDNA-Large-1M,在分类任务上取得明显提升。这说明病毒建模并不是简单的“大就是好”。对于病毒这样的长尾、高变异、强分布漂移领域,模型看过什么数据、数据覆盖了多少生物多样性,可能比模型有多少参数更加重要。

七、意义与展望

病毒基因组分析是公共卫生监测、病原体识别、疫苗与药物研发以及病毒进化研究中的重要基础能力。随着生物基础模型的发展,越来越多病毒相关任务正在从传统的序列比对、手工特征和专用模型,转向统一的基础模型表征与生成框架。但如果没有严格、系统的评测,我们很难判断这些模型究竟学到了什么,也很难评估它们在真实病毒场景中的可靠性和能力边界。病毒基因组高度多样、快速演化,并持续挑战模型的跨分布泛化能力、时序鲁棒性和生成可靠性。因此,病毒不是一个普通的序列任务,而是检验核酸基础模型真实能力的重要场景。ViroBench 希望为这一领域提供一套标准化、可复现、可诊断的评测基准,让病毒基因组基础模型的发展从“能跑分”走向“可比较、可解释、可改进”。未来,ViroBench 将持续扩展任务类型、模型覆盖范围和病毒序列数据规模,为病毒基因组建模、公共卫生监测和生物序列基础模型研究提供开放评测基础。

该工作已被2026 ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2026)接收。上海创智学院2025级博士生叶东欣为论文第一作者,2025级博士生胡方为论文共同第一作者,2025级博士生谭扬参与了本研究,学院导师董楠卿研究员为论文通讯作者。广州国家实验室(上海基地)崔杰研究员、西湖大学李子青教授、深圳河套学院欧阳万里教授为本研究提供了宝贵指导。本研究得到了“新一代人工智能”国家科技重大专项与“新发突发与重大传染病防控”国家科技重大专项的资助和上海创智学院的算力支持。