ProcureGym | 首个面向国家药品集采的大模型智能体模拟平台

2026.03.30阅读量：18

科研进展

项目资源

●Github：https://github.com/JiaWANG-TJ/ProcureGym

●论文链接：https://arxiv.org/abs/2603.23880

●Demo：视频详见公众号链接

https://mp.weixin.qq.com/s/rBNWslTESJapUaLxqdUtpg

中国于2018年启动国家药品集中带量采购（National Volume-Based Drug Procurement, NVBP）制度，是药品价格形成机制的里程碑式改革，旨在通过集采促进企业有效竞争、引导药品价格回归合理水平、减轻患者用药负担。截至2025年12月，已开展十一批次国家药品集中采购，覆盖药品数量超过490种，涉及企业达到数千家，集中采购过程已演变为一个高度复杂的博弈决策环境。企业需在政府约定采购量和最高限价等监管约束下，制定报价策略，以在预期利润与中标概率之间取得平衡。精确的仿真模拟对于理解策略博弈、预测政策响应以及优化采购策略等至关重要。

当前，关于经济学计算建模的研究日益增多，但现有工作主要聚焦于通用场景或宏观经济场景，如财政税收政策制定与优化方面，而针对垂直领域下的经济学仿真研究仍处于起步阶段，相关探索较为有限，尤其在药品集中采购这一复杂政策场景中的应用研究更为缺乏。不同于关注系统级均衡的宏观经济模型，对该类微观招投标博弈的仿真面临着根本性挑战：即如何捕捉企业层面的多样性、对动态策略调整进行建模以及预测反事实干预下的行为特征。

为此，上海创智学院研究团队联合复旦大学与同济大学的学者，共同研发了多智能体仿真平台ProcureGym，该框架基于马尔可夫博弈（Markov Game）理论，专为模拟药品集中采购中多企业竞标博弈等复杂经济场景而构建。目前，研究团队正持续拓展该项工作，致力于构建涵盖政府、企业与医疗机构三方主体的多智能体模拟系统，旨在为相关部门的政策制定与效用评估提供高还原度的一站式仿真支持。此外，核心学生贡献者上海创智学院2024级博士生王嘉在学院全时导师魏忠钰的指导下正积极探索ProcureGym等集采模拟系统在政策建议和企业竞价策略制定方面的产业孵化可能。未来，该项目成果有望服务于中国乃至全球区域范围下的公共卫生政策改革，进而构建起“技术探索—成果转化—价值反馈”的“研创学”正向循环生态。

本文聚焦于药品集中采购博弈，突破了传统宏观经济模拟的局限，其主要贡献总结如下：

●聚焦经济学场景的大规模仿真平台：现有经济模拟平台（如AI Economist、TaxAI等）多聚焦宏观经济或税收领域，且博弈场景数量受限。相较之下，ProcureGym是当前唯一聚焦于药品集采领域的仿真平台，且支持的独立博弈场景规模高达325+，在场景复杂度与领域适配性上都实现了突破。

●首个支持集采场景的多智能体模拟框架：我们提出了一种针对国家药品集采的基于马尔可夫博弈的多智能体系统，该系统具有统一接口，支持包括RL、LLM及基于规则（Rule）的智能体。平台深度融合了中国7轮国家集采的真实脱敏数据，覆盖325种药品和2,267家企业实体。基于RL的智能体实现了74.81%的平均预测准确率，相比基线模型提升10.80%。

●揭示企业定价的博弈逻辑：大语言模型（LLM）强大的自然语言能力为企业的竞价策略提供了充分的可解释性补充。企业在集采中表现出基于自身成本结构的差异化报价行为，低成本企业倾向于采取激进的低价策略以优先获取市场份额，而高成本企业则更侧重于维持较高的利润率。

●对于真实药品集采政策的启示：集采作为一个多目标的系统政策，政府需要综合考虑“降价、稳供、保质、公平及可持续”来制定相应的采购规则。实验结果发现：更高的约定采购比例和约定采购量会压低投标价格并减少企业利润，而更高的最高有效申报价和强劲的市场需求（实际采购量）则会提升报价和利润。在此基础上，形成如下政策建议。

·建议一：最高有效申报价直接并显著影响企业竞争价格水平和企业利润，需要在现阶段综合考量实际采购价格、竞争格局的基础上，进一步综合既往采购数据，研判其断供风险发生概率来综合制定能够代表实际市场价格水平并兼顾市场波动的申报限价。

·建议二：合理设置约定采购量比例，在促进企业竞争的同时也留出一定的自由市场，从而保证未中选企业可竞争非集采市场空间，保持市场竞争活力，也保障临床用药选择的多样性。其比例的设置，可进一步根据药品剂型、疾病治疗领域分层设置。

·建议三：约定采购量与实际采购量对企业竞价影响相反，当期约定采购量是由医疗机构根据历史实际采购量为基础计算得到，基于此，建议提升医疗机构精准报量工作能力的建设，整合疾病流行数据、临床用药指南、医院等级等数据开发报量辅助工具，预测约定采购量区间范围；建立报量考核机制，要求约定采购量与实际采购量偏离较大的医疗机构递交用药情况说明。建立需求波动缓冲机制，当执行过程中出现用量突然波动（如季节性需求强：流感用药），允许在中选企业在供应不足时，提前报备，上调供应价格对应降低与该企业约定采购量。

表1：ProcureGym与相关经济学仿真平台的比较

ProcureGym：药品信息

为构建贴近现实的国家组织药品集中采购模拟场景，本研究整合了来自多个权威渠道的真实世界数据：采购文件及相关数据来源于上海阳光医药采购官网（Sunshine Medical Procurement All-In-One，SMPA），潜在竞争企业信息、原料药自产资质信息来源于国家药品监督管理局药品审评中心官网（Center for Drug Evaluation，CDE）。

上海阳光医药采购官网，https://www.smpaa.cn/

国家药品监督管理局药品审评中心官网，https://www.cde.org.cn/

●该数据集涵盖325种集采药品，剂型以口服制剂（61%）为主，治疗领域以抗感染类药物（23%）居多；从批次分布来看，第五批集采纳入的药品数量最多，而第二批最少。

●在竞争态势方面，48%的药品面临3至5家潜在竞标企业的竞争，绝大多数（70%）品种的中选企业数量为2至5家，中选率主要集中在50%至80%区间。

●在企业层面，本研究共纳入2,267组“药品-企业”样本，以仿制药（89%）为主导，且中小企业占比显著（67%）；其中，仅25%的样本具备原料药自产能力，且不同类型企业的报价分布存在显著差异。

图1：国家药品集中采购第二至九批次采购药品信息统计分析

ProcureGym：任务设置

1.多智能体模拟工作流

ProcureGym将NVBP模拟构建为一个系统化的工作流，该工作流涵盖多轮集采批次、药品实例、建模算法以及采购规则的敏感度等设定。针对各项仿真任务，该框架首先加载任务设定与算法配置，初始化采购参数，对各企业的异质性成本进行抽样；随后构建仿真环境，实例化参与企业，并完成其状态变量的初始化。此后，该工作流在竞标博弈的连续回合（episodes）与时间步（timesteps）中推进；在此过程中，各个智能体不断迭代更新自身状态，并以奖励目标为导向持续优化其报价策略。最后，该框架执行训练后独立评估并导出仿真结果，从而为中选预测、企业盈利能力评估，以及采购结果对政策干预与市场冲击的敏感性分析提供全面的研究支撑。

表2：ProcureGym模拟工作流对应的伪代码

本文涉及到的相关的变量名及其对应的缩写：

状态空间S_t，包含最高有效申报价P_max 、约定采购比例ρ、中选企业数量x、企业价格联动系数ω_i、约定采购量Q₀、实际采购量Q_e、单位生产成本C_i、上一轮报价Pⁱ_t-1、上一轮利润 IIⁱ _t-1以及时间信息t/T；

动作空间A_t，用于将归一化报价决策a_t映射为实际报价Pⁱ_t；

转移概率P（s' | s,a），由中选状态二元指示变量Iⁱt、中选利润π₀及未中选利润π₁决定。

2.Markov Game建模

ProcureGym将企业智能体之间的互动行为建模为马尔可夫博弈。该马尔可夫博弈框架的构建旨在契合真实的集采场景，内嵌了政策法规、企业特征、药品属性及竞标机制等要素。这种模块化的马尔可夫博弈设计通过组件重构，可便捷地扩展至其他博弈论场景中。NVBP本质上是一种符合具有明确采购量约束的密封拍卖机制的活动。其采购规则遵循确定性的价格升序Top-k中选机制：报价最低的前位竞标者获得约定采购量，而未中选者则通过价格联动政策获取集采外市场需求。受环境不确定性的影响，企业需在中选概率与企业利润之间寻求最优权衡。

企业智能体的马尔可夫博弈要素定义如下：

●状态空间：10维向量，包括：政策参数、企业参数、市场历史数据及时间编码。

●动作空间：企业报价，限制于企业成本至最高有效申报价之间。

●状态转移概率：二元指标决定企业的中选情况及其对应的实现利润，从而更新历史状态。

●奖励函数：企业利润，包含集采中选部分利润与集采外市场利润。

●折扣因子：未来收益在累计回报中的权重因子。

表3：多智能体的Markov Game五元组要素定义

ProcureGym：结果讨论

1.实验设置

本研究在马尔可夫博弈框架下对集中采购场景进行建模，引入了三种算法的智能体：

●RL-based agents，包括IPPO和MAPPO算法；

●LLM-based agents，由Qwen3-235B-A22B-Instruct模型驱动，并采用以“感知-记忆-决策-反思”的智能体架构；

●Rule-based agents，采用依据现实世界的政府规定与企业属性制定的启发式策略。

评估指标涵盖三个维度：

●中选预测准确性：Top-K中选机制下，预测中选企业与实际中选企业的一致率；

●价格预测准确性：预测价格与实际价格之间的斯皮尔曼相关系数（ρ）及决定系数（R²）；

●企业利润：预测企业在集采中选部分利润与集采外市场利润之和。

2.国家七批次药品集中采购场景模拟结果

●中选预测方面：与LLM（预测准确率为66%）和Rule（64%）相比，RL-based agents实现了显著更高的准确率（均为75%）。

●价格预测方面：实验结果显示所有算法均呈现出显著的强斯皮尔曼正相关性（ρ = 0.85-0.88，所有p < 0.001）。决定系数（R²）分布在0.76至0.79之间，其中MAPPO表现出最高的解释力（R² = 0.79），而基于规则的方法表现最低（R² = 0.76）。

●企业利润方面：强化学习算法习得了利润最大化的竞标策略。尽管现实世界中的报价行为并非总是最优，但强化学习不仅保持了较高的中选预测准确性，还能通过优化策略以获取更高利润，从而凸显了其在策略优化而非单纯模仿方面的实践优势。

图2：中国国家药品集中采购七个批次下的ProcureGym模拟结果

3.药品集采关键规则参数敏感性分析

核心参数的敏感性分析结果提示，政策因素与市场因素会对中选模拟产生显著影响。在政策设计相关参数中，较高的约定采购量比例与较大的约定采购量会降低企业报价及利润，而较高的最高有效申报价与实际采购量则会推高企业报价与利润水平。在市场竞争相关参数中，实际采购量是影响企业盈利能力最关键的市场驱动因素，其次是约定采购量，最后是生产成本。随着增大，企业报价呈现先大幅增加后续趋于平缓，增加对报价的影响在不同算法中呈现出差异，RL算法下企业降低报价，而LLM和Rule-based智能体下则波动较小，当企业成本逐步增加，会进一步推高企业报价，但变化不大。整体来看，不同参数变化情景下对于不同算法学习企业利润方面，强化学习方法始终优于大语言模型及基于规则的基准方法。

图3：集采关键参数敏感性分析实验结果

本成果相关工作已被ISPOR 2026录用为海报（国际药物经济学与结果研究协会年会, The Professional Society for Health Economics and Outcomes Research Annual Meeting，ISPOR）。

科研创新