医学大模型新标杆！谷歌Med-PaLM 2霸榜医学问答领域

上个月的谷歌IO大会上，谷歌CEO桑达尔・皮查伊（Sundar Pichai）向全世界AI开发者发布了谷歌最新的大型语言模型（LLMs）PaLM 2，作为对标OpenAI最新大模型GPT-4的竞品，PaLM 2展现出了强大的多语言和推理能力。除此之外，PaLM 2在其他专家领域上的可扩展能力也不容小觑，Med-PaLM 2就是由谷歌DeepMind的医疗健康团队在PaLM 2的基础上微调得到。可以直接给Med-PaLM 2输入一幅X光片，它会自动根据输入信息来对患者的病情进行分析和诊断。

论文链接：

https://arxiv.org/abs/2305.09617

Med-PaLM 2能够根据用户的输入来检索医学知识，并对其进行推理来回答医学问题，可以达到辅助医生完成日常报表，甚至辅助医生进行诊断的效果。事实证明，LLMs在医学领域的应用前景非常广阔。在Med-PaLM 2的这份长达30多页的技术报告中，作者对Med-PaLM 2训练所使用的数据集、建模方法、提示工程（Prompt Engineering）以及多项实验评估进行了详细的介绍。此外，作者团队还提到Med-PaLM 2是目前第一个在美国医疗执照考试上达到“专家”水平的大语言模型。需要明确的是，Med-PaLM 2是一个二代模型，它的前代模型Med-PaLM曾经就是第一个在MedQA数据集上以67.2％的分数达到SOTA的模型。如今迎来全面升级的Med-PaLM 2在MedQA数据集上的得分达到惊人的86.5％（提升了超过19%），作者认为，这得益于PaLM 2基础大模型的改进、使用医学领域知识进行微调和最新设计的提示工程三方面的因素。

一、引言

在先前发布Med-PaLM时，DeepMind就一同发布了MedQA数据集，这是一个涵盖医学考试、消费者健康和医学研究的多样化医学问答测试基准，是目前行业内公认的医学大模型评估基准。此外考虑到医学问答的多样性，作者还在此基础上提出了一个人工评估准则，使医生和普通人能够对模型答案进行详细评估。此外MedQA包含了类似于美国医学执照考试（US Medical Licensing Exam，USMLE）中的问题，因此其非常贴合现实的医学评价环境。此次发布的Med-PaLM 2相比前代，在MedQA上的性能提升非常显著，如下图左侧所示。

虽然Med-PaLM 2在MedQA上的测试结果非常可观，但由于医学领域关乎到人的健康，仅通过简单的基准测试难以全面评估模型的生成事实性、回答的安全性。倘若Med-PaLM 2在回答医学问题时也产生了大模型常见的“幻觉(Hallucination)”现象，那带来的后果会更加严重。因此，除了在MedQA上的直观定量对比，研发团队还选取了1066个消费者医疗问题来进行人工评估，如上图右侧所示，在九个与临床效用相关的轴线上（如事实性、医学推理能力和低风险性），黄色条线为Med-PaLM 2的回答得分，蓝色条线为人类医师的回答得分，这些得分均由另外一组医生给出，可以看到，Med—PaLM 2在9个轴线中的8个上都达到了更好的效果。此外，作者还引入了两个对抗性医学问题数据集，来进一步探索这些医学大模型的安全性和局限性。

二、本文方法

2.1 建模方式和指令微调数据集

根据模型命名就可以看出，Med—PaLM 2背后的基础LLM就是刚刚发布的PaLM 2，PaLM 2作为谷歌最新发布的基础大模型，在多个LLM基准任务上都达到了非常优越的性能，详细细节可以参考我们先前对PaLM 2的报道。为了赋予Med-PaLM 2专业的医学检索、推理和问题回答能力，本文采用谷歌先前提出的Flan方法[1]对PaLM 2进行医学指令微调。同Med-PaLM 2一同发布还有微调所使用的数据集MultiMedQA，即MedQA、MedMCQA、HealthSearchQA、LiveQA和MedicationQA的混合版本。Med-PaLM 2在MultiMedQA中的所有子集都进行了性能优化，整体的数据集混合占比情况如下表所示。

2.2 提示工程

上文提到，Med-PaLM 2相比前代模型产生较大的性能提升主要来源于三点：

（1）PaLM 2大模型，

（2）使用医学知识对模型进行指令微调，

（3）Med-PaLM 2中新设计的提示工程。

本文所使用的提示工程也是整合了近期大模型领域中一些比较先进的技术，并且在这些技术基础上进行了改进，作者在论文中将其主要概括为以下几个方面：

2.2.1 小样本（few-shot）

提示few-shot提示可以看作是开启大模型上下文学习（In-Context Learning）能力的一把钥匙，常见的手段是在给大模型的输入之前加入少量（例如3-shot、5-shot、10-shot等）的示例输入和输出来引导大模型在训练之外的数据上进行推理，通过few-shot提示可以有效的提升大模型在多种任务上的泛化性能。虽然few-shot提示早在GPT-3时代就被提出，但本文作者强调，其仍然是提升Med-PaLM 2综合性能非常强有力的基础方法。

2.2.2 思路链（Chain-of-thought，CoT）技术

目前大模型社区中讨论最火热的话题，除了上面介绍的few-shot提示，应该就是思维链方法了，思维链方法可以通过在few-shot提示与最终答案之间设置中间步骤来使大模型对复杂问题进行推理，这种方法能够使大模型在多步问题中基于自身的中间输出来进行条件训练。由于医学问题本身就具有独特的推理特性，因此非常适合使用CoT提示，作者基于MedQA等医学数据集设计了医学CoT，可以清晰的展示Med-PaLM 2在解决医学问题时的中间推理过程和所使用的推理依据，下图展示了其中一组CoT示例：

在医学CoT中，作者首先提示Med-PaLM 2来完成一些有关医学知识的选择题（从四个选项中选取一个作为最终答案），并且要求模型以step-by-step的形式进行推理。例如上图中的问题为：

一名44岁的男性在三天因为喉咙痛、干咳、流鼻涕和前额头痛而就诊，并且提供了一系列其生命体征信息，例如体温、脉搏、呼吸频率和血压等等，同时也提供了一些鼻孔检查（显示有红斑粘膜）、颈部淋巴（颈部淋巴结肿大）和肺部检查结果（听诊肺部清晰），然后需要模型判断以下四个选项哪一个是该患者症状的最可能原因？

(A) 过敏性鼻炎 (B) Epstein-Barr病毒 (C) 肺炎支原体 (D) 鼻病毒

模型首先分析认为，患者有头痛的症状，表明最后可能的原因就是鼻病毒，然后分析Epstein-Barr病毒，EB病毒确实会导致淋巴结肿大，但不会触及到颈部淋巴结。此外根据肺部听诊清晰表明不是支原体肺炎，最终确定的病因是选项(D) 鼻病毒。可以看到，通过使用CoT机制，模型可以以逐步排除的方式来进行精确推理。

2.2.3 自一致性（Self-consistency，SC）机制

自一致性[2]是一种与思维链推理高度相关的策略，它可以通过从模型中采样多个解释和答案来提高推理性能，可以简单理解为大模型内部的投票机制。对于像医学这样具有复杂推理路径的领域，通过对多个推理路径进行投票可以显著提高推理精确性。在本文中作者提到，采用了与Med-PaLM中相同的策略，即对所使用的CoT提示进行了11次自一致性采样来得到最终推理结果。

2.2.4 集成优化（Ensemble Refinement，ER）方法

除了上述几种目前已有的大模型优化技术，本文还设计了一种新型扩展方法，即集成优化提示（ER），ER通常以思维链和自一致性机制得到的模型中间输出结果为条件，来生成更加精确的回答。

具体来说，ER方法是一个两阶段过程：首先给定一个few-shot的CoT提示文本和一个目标问题，大模型随后以温度采样的方式随机产生多个可能的生成结果。在这种情况下，每个生成结果都包含了一个对于当前问题的解释和答案。然后，模型将在原始提示、问题和前一步骤生成结果的条件下进行调整，并提示生成一个更加精确的解释和答案。这一过程可以理解为更高层次的自一致性推理。与普通的自一致性机制相比，ER会在大模型第一阶段输出的答案上进行聚合，而不仅仅是简单的投票，这使得大模型能够考虑到不同推理路径得出回答的优势和劣势。ER方法整体的过程如下图所示。

三、实验评估

本文的实验评估部分可以大致分为两个方面，其一是在MedQA、MedMCQA、HealthSearchQA、LiveQA和MedicationQA等数据集上进行定量评估，其二是一些自定义的由专业医生和非专业人士参与的人工评估部分，下面分别进行介绍。

3.1 定量实验评估

在这一部分，作者选取了GPT-4作为对比方法，下表中展示了了Med-PaLM 2 在MultiMedQA 多项选择问题基准测试中的对比结果。可以看到，Med-PaLM 2在5个基准数据集上获得了最佳性能，其中ER代表集成优化提示方法，表中的最佳结果是从Med-PaLM 2使用不同的提示策略得到的模型结果中选择的。

为了进一步评测本文所使用的多种提示策略的对模型的贡献程度，作者对few-shot提示、思维链、自一致性机制和集成优化四种提示策略进行了消融研究，实验结果如下表所示。

3.2 人工长文本评估

为了评估Med-PaLM 2在消费者医学问题（这些问题以长文本的形式出现）回答方面的性能，作者设计了一系列人工评估，首先从Med-PaLM和Med-PaLM 2模型中获取长文本问题的答案。随后让专业医生对同样的问题进行解答，医生在生成答案时没有时间限制，并允许他们查阅参考资料。同时医生被告知，他们所作回答的受众将是一个具有平均阅读理解能力的普通人。在得到两份医学回答之后，作者同样设置了两组评价者，分别是专业的医生和外行评价者。医生评价者由15人组成。医生的专业涵盖了家庭医学和普通医学、内科、心脏病学、呼吸科、儿科和外科。外行评价者由六人组成，都没有医学背景。他们的教育背景分布如下：两人持有高中文凭，三人持有研究生学位，一人具有研究生经验。

随后分别对医生、Med-PaLM和Med-PaLM 2做出的长文本答案进行人工评估，评价者并不明确答案的来源，并且在不与其他评价者协商的情况下进行评分。实验使用了MultiMedQA和本文提出的两个对抗性数据集。对于所有的评分实验，每个回答都由从相应的评价者组（普通人或医生）中随机抽取的三个独立的评价者进行评估。下图展示了评估者对这些问题所作回答之间的一致性程度，以MultiMedQA数据集为例，绿色虚线（K=0.6）表示良好的一致性，绿色实线（K=0.8）表示非常好的一致性。

此外，为了保证评估的专业性，作者还设置了只有医生参与的评分，下图左侧展示了在MultiMedQA上，专业医生对Med-PaLM 2以及医生生成的答案得出的评估轴线，可以看到，Med-PaLM 2与专业医生的水平基本相当。

在上图右侧展示了在对抗性数据集上的效果，可以看到，医生对Med-PaLM 2答案的评价在所有轴上都明显高于Med-PaLM答案的质量，这表明，Med-PaLM 2已经在Med-PaLM的基础上很大程度规避了生成错误答案的风险。

四、总结

本文将大模型技术扩展到医学领域，作为一个在Med-PaLM上改进的模型，Med-PaLM 2展现出来了非常优越的性能，它在医学问题回答方面正在迅速追赶人类医师的水平。由于医学领域的特殊性，对这类医学大模型开展在安全和伦理方面的工作是非常必要的，需要对大模型在医学问题回答和实际工作流程中进行仔细而严格的评估和改进，本文设计了非常详尽的实验评估来对Med-PaLM 2进行评估，包括通用的基准数据集测试，以及专业人员与非专业人员参与的对抗性人工评估，以确保这项技术为人类医学和健康带来正向的帮助，此外，Med-PaLM 2是否可以应用的到医生日常的工作中，帮助医生处理繁杂的医学报表等文本材料，应该还是有很广阔的应用前景的。

参考

[1] Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416 (2022).

[2] Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I.,Gutman-Solo, T., et al. Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858 (2022).

作者：seven_