靶向药设计是现代药物研发的核心任务。其中,多靶点药物设计策略能够协同调控多个靶点,为攻克癌症、神经退行性疾病等复杂病症提供了关键方向。然而,想要同时满足多个靶点的结合口袋约束并兼顾类药性,对底层设计方法提出了极高的要求。
近日,上海创智学院和浙江大学AIDD团队联合澳门理工大学团队提出了一种基于大语言模型(LLM)的多靶点药物设计通用3D分子生成框架——LaMGen。 该框架成功打破了现有方法泛化性不足、计算精度与运行效率难以兼顾的核心瓶颈。研究人员仅需输入靶标蛋白的氨基酸序列,LaMGen便能直接生成达到量子化学精度的3D活性分子。无论是在双靶点还是极具挑战的三靶点药物设计场景中,LaMGen均展现出了卓越的性能表现,为复杂疾病的多靶点药物研发提供了一款新颖且强大的基础计算工具。该成果发表于国际权威期刊《Nature Communications》。
一、直击痛点:传统多靶点药物设计的重重挑战
近年来,深度学习在单靶点分子生成领域取得了长足进步,但在向多靶点场景拓展时,依然面临着难以逾越的“三座大山”:
1. 面临“未知”便束手无策: 绝大多数现有方法属于“基于配体”的方法,高度依赖特定靶点对的既有活性数据。一旦遇到缺乏已知参考分子的全新靶点组合,泛化性极差。
2. 深陷“过度优化”的陷阱: 部分方法试图通过强化学习引入靶点信息,却往往难以平衡“靶点特异性”与“化学多样性”,过度优化极易导致生成的分子骨架非常狭窄。
3. 计算效率与质量的双重妥协: 基于扩散架构的通用框架计算极其密集、生成效率低。在面对三靶点等复杂场景时,生成质量与可控性会出现断崖式下降。
大语言模型(LLM)在诸多领域展现出革命性能力,但现有模型普遍缺乏对分子3D空间信息的深刻理解。LaMGen的诞生正是为了填补这一空白,首次实现了基于LLM的通用型多靶点3D分子生成。
二、让大模型读懂 3D 构象:LaMGen 用三大技术创新重塑生成范式
为打破多靶点分子生成中精度、泛化性与效率的三重壁垒,研究团队构建了全流程的 LaMGen 框架,核心创新分为数据集构建、模型架构设计与训练策略三大模块。
1.筑牢数据底座(MTD2025大规模数据集)
针对多靶点药物设计领域高质量数据匮乏的核心问题,研究团队基于 Papyrus 生物活性数据库,整合 ChEMBL、ExCAPE-DB 等权威来源的实验活性数据,经过系统过滤、配对与重构,构建了 MTD2025 数据集。该数据集包含 4011 个唯一蛋白、123024 个唯一小分子,配套超 60 万个量子力学精度的 3D 分子构象,以及 44.6 万条双靶点、28.3 万条三靶点关联数据。所有分子均通过 CREST 完成构象搜索,再经量子力学精度的 LiTEN-FF 力场优化得到局域最低能量构象,确保了数据集的结构质量与物理合理性,为模型训练提供了高质量的数据基础。
2.颠覆性的核心架构设计
LaMGen 基于 Transformer 解码器架构构建,整体分为配体预训练、多靶点微调、序列驱动分子生成三大核心阶段,核心创新点如下:3D 旋转感知离散 token 编码:将配体扭转角等内部自由度编码为离散的 3D 旋转感知 token,相比原始笛卡尔坐标,大幅缩短了序列长度,保证了旋转不变性,同时显著降低了计算复杂度,让 LLM 可直接学习分子SMILES序列与3D构象空间的精准映射。ESM-C 蛋白序列编码:摒弃对蛋白 3D 结构的依赖,仅以氨基酸序列为输入,通过预训练蛋白大模型 ESM-C 进行编码,得到能有效捕捉蛋白结构与功能特征的嵌入表示,大幅降低了模型对结构数据的依赖,同时借助大规模序列数据库提升了模型的泛化能力。TriCoupleAttention 模块:创新性地在统一的自注意力框架内,联合建模靶点 - 靶点、配体 - 靶点、配体 - 配体间的自注意力与交叉注意力,通过加权融合机制自适应平衡双靶点对配体的影响,实现了对多靶点结合模式的细粒度、全维度建模,完美适配多靶点场景的复杂相互作用捕捉。
3.两阶段进阶训练
模型先在 GEOM 数据集的 800 万+高质量分子构象上完成预训练,学习分子 SMILES 与扭转构象的基础映射关系;再在 MTD2025 数据集上完成多靶点适配微调,让模型具备基于蛋白序列生成多靶点活性分子的能力。同时,训练过程中引入随机因果掩码策略,显著提升了模型的鲁棒性与泛化性。
图1. LaMGen框架示意图
三、实力验证:从零样本泛化到复杂体系的全面领跑
研究团队通过多维度、多场景的系统实验,全面验证了 LaMGen 的性能优势与实际应用价值。
1.跨越未知靶点的“零样本”生成
研究团队构建了两组独立测试集,分别对应全低序列相似度(<0.4)的完全分布外靶点对,以及 “低 + 高” 序列相似度的混合靶点对,全面评估模型的泛化能力。在外部测试集上,LaMGen 在 17/20 个靶点对上的结合亲和力优于主流开源双靶点生成模型 DualDiff,同时在类药性(QED)、合成可及性(SAScore)上展现出更优异的表现;单分子生成平均仅需 0.44 秒,较 DualDiff(12.3 秒 / 分子)提速超 30 倍,可适配高通量筛选场景。在混合测试集上,LaMGen 生成分子的有效率达 95%,内部结构多样性达 0.89,与训练集平均相似度仅 0.11,在保证结构创新性的同时,关键类药性质均完全符合成药区间,双靶点平均结合亲和力达 - 9.0 与 - 8.7 kcal/mol,展现出优越的分布外泛化能力。
图 2. 测试集性能基准与生成分子性质分析
2.“一步到位”的量子化学精度构象
针对分子构象生成这一下游应用的核心环节,研究团队开展了系统的构象保真度验证。结果显示,LaMGen 生成的构象与 LiTEN-FF 优化结构的平均 RMSD 仅为 0.5 Å,超 98% 的构象 RMSD 低于 2 Å,构象质量全面优于 DualDiff;其生成构象的对接得分与 LiTEN-FF 优化构象高度一致,显著优于 MMFF94 力场优化构象,PoseBusters 综合通过率达 92%,远超 DualDiff 的 68%。这意味着 LaMGen 可直接生成无需额外力场优化、即可用于下游对接与性质预测的物理合理 3D 结构,有效简化了药物研发的计算流程,降低了计算开销。
图 3. LaMGen生成的构象合理性评估
3.实战神经退行性疾病:微调后综合成药成功率全面超越SOTA模型
研究团队以神经退行性疾病领域经典的 JNK3/GSK3β 双靶点设计为案例,验证模型的实际应用能力。在零样本场景下,仅输入两个靶点的氨基酸序列,LaMGen 生成的分子有效率达 94.2%,多样性达 0.863,45%以上的分子对接得分超过已知活性分子的平均水平,综合性能与 AIxFuse 等 SOTA 模型相当甚至更优。经过少量样本微调后,LaMGen-FT 的双靶点对接达标率提升至 33.01%,超越 AIxFuse(31.80%),多性质综合成药成功率同样显著优于 AIxFuse(8.46% vs 5.40%),同时保持了更高的分子多样性,展现出优秀的迁移学习能力与靶点适配性。
图 4. JNK3/GSK3β 双靶点体系下 LaMGen 零样本及微调模型的生成性能评估
4.成功解锁极具挑战的癌症“三靶点”分子设计
研究团队进一步在癌症治疗相关的 3 组经典双靶点体系(EGFR/HER2、PI3K/mTOR、LSD1/HDAC6),以及 EGFR/HER2/VEGFR 三靶点体系中开展回顾性验证。结果显示:在双靶点体系中,LaMGen 可精准复现与已知活性分子结构完全一致的化合物,同时能自主生成保留核心药效团、结合亲和力更优的骨架类似物,实现了药效团重构与骨架跃迁的双重能力;在三靶点体系中,LaMGen 依然保持了优异的生成性能,生成分子在三个靶点上均集中于高亲和力区间,可自适应调整分子复杂度以满足第三个靶点的结合约束,同时保持核心类药性质稳定,首次实现了基于 LLM 的三靶点 3D 分子生成。
图 5. LaMGen在双靶标体系中的回溯性验证
图 6. LaMGen在三靶标体系中的回溯性验证
本研究由上海创智学院、浙江大学、澳门理工大学等多个单位联合完成,上海创智学院&浙江大学2025级博士生苏群与澳门理工大学博士生苟巧林为共同第一作者,通讯作者为上海创智学院全时导师、浙江大学教授康玉、浙江大学教授侯廷军与澳门理工大学教授刘焕香。
·原文链接:https://www.nature.com/articles/s41467-026-71737-w
