MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估
本研究介绍了 MedExQA,这是一个用于评估大型语言模型对医学知识的理解能力的新型基准,通过构建涵盖五个不同医学专业的数据集,并且为每个问题 - 答案对提供多个解释,填补了当前医学问答基准的一个重要空白,即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性,提出了一个评估模型超越分类准确性的有效方法,并在特定领域 —— 言语病理学中,揭示了当前 GPT4 等语言模型理解能力不足的问题。我们的结果表明,使用多个解释进行生成评估更符合人类评估结果,提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型(目前主要基于 Llama2),我们还提出了一种新的医学模型 MedPhi-2,基于 Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于 Llama2-70B 的医学语言模型,展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。
Jun, 2024
近年来,大型语言模型(LLMs)在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集,评估了六种 LLMs(如 GPT 和 Mixtral)在医学知识回忆方面的能力,并揭示了此任务的复杂性。
Jun, 2024
通过构建两个新的数据集,利用多个评估指标以及医学专家编写的解释进行实验,我们发现 LLMs 在回答医学问题方面表现出色,但是现有的基准测试数据集在捕捉真实临床病例的复杂性以及提供参考解释方面存在不足,因此需要开发新的度量指标以支持可解释医疗问答的未来研究。
Feb, 2024
本研究通过比较一般性和专用于医学问答的精简语言模型的性能,旨在填补这方面的空白,并评估不同语言模型家族的性能,以探讨这些模型在医学问答领域的可靠性、比较性能和有效性,从而为不同语言模型在医学领域的特定应用提供有价值的见解。
Jan, 2024
通过评估各种流行的大型语言模型对医学问题的知识,我们能够更好地了解它们作为一个群体的特性。从这次比较中,我们提供了初步的观察结果并提出了进一步研究的问题。
Oct, 2023
本文提供了一个框架来研究 LLMs 作为多语言对话系统在医疗查询中的有效性。通过对英语、西班牙语、中文和印地语等四种主要全球语言的广泛实验和算法与人工评估相结合的策略,我们发现 LLMs 在这些语言中的回答存在明显差异,表明需要增强跨语言能力。我们进一步提出了一种用于检测 LLMs 在医疗环境中多语言能力的跨语言基准。研究结果强调了增强这些模型的跨语言能力以及提供一个对所有人可访问的公平信息生态系统的紧迫性。
Oct, 2023
Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.
May, 2023
使用对抗性方法 MedFuzz 对医学问题回答基准中的模型进行干扰,通过修改问题来迷惑大型语言模型 (Large Language Models, LLM),检验其在违反基准假设时的性能泛化情况,并通过置换检验技术确保成功攻击的统计显著性。这些方法在更加真实的环境中为 LLM 的稳健运行提供了有希望的见解。
Jun, 2024
最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力,如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试,用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程,并提出了高效的结构恢复注释 (ESRA) 方法,可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本,在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验,发现现有的 LLMs 性能仍受限制,但与 LMMs 相比,LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。
Feb, 2024