在回答和解释棘手的医学问题上评估大型语言模型
该论文介绍了 MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
本研究介绍了 MedExQA,这是一个用于评估大型语言模型对医学知识的理解能力的新型基准,通过构建涵盖五个不同医学专业的数据集,并且为每个问题 - 答案对提供多个解释,填补了当前医学问答基准的一个重要空白,即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性,提出了一个评估模型超越分类准确性的有效方法,并在特定领域 —— 言语病理学中,揭示了当前 GPT4 等语言模型理解能力不足的问题。我们的结果表明,使用多个解释进行生成评估更符合人类评估结果,提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型(目前主要基于 Llama2),我们还提出了一种新的医学模型 MedPhi-2,基于 Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于 Llama2-70B 的医学语言模型,展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。
Jun, 2024
通过评估各种流行的大型语言模型对医学问题的知识,我们能够更好地了解它们作为一个群体的特性。从这次比较中,我们提供了初步的观察结果并提出了进一步研究的问题。
Oct, 2023
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024
使用对抗性方法 MedFuzz 对医学问题回答基准中的模型进行干扰,通过修改问题来迷惑大型语言模型 (Large Language Models, LLM),检验其在违反基准假设时的性能泛化情况,并通过置换检验技术确保成功攻击的统计显著性。这些方法在更加真实的环境中为 LLM 的稳健运行提供了有希望的见解。
Jun, 2024
利用模拟医学考题的方法评估大型语言模型在医学领域的表现,发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力,而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法,以更好地评估大型语言模型在医学背景下的真实能力。
Jun, 2024
本研究通过比较一般性和专用于医学问答的精简语言模型的性能,旨在填补这方面的空白,并评估不同语言模型家族的性能,以探讨这些模型在医学问答领域的可靠性、比较性能和有效性,从而为不同语言模型在医学领域的特定应用提供有价值的见解。
Jan, 2024
研究了大型语言模型在临床和生物医学领域中与相关知识的召回和整合性方面的性能,发现指导调优等因素能够提高召回和理解能力,并展示了在医学知识数据集上进行直接微调的鼓舞人心的结果,为语言模型中的临床知识表示学习的进一步发展提供资源和标准方法论。
Jun, 2024
近年来,大型语言模型(LLMs)在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集,评估了六种 LLMs(如 GPT 和 Mixtral)在医学知识回忆方面的能力,并揭示了此任务的复杂性。
Jun, 2024