面向医疗的大型语言模型评估与构建
为了解决医学大语言模型的评估工作耗时且需要大量人力的问题,我们引入了MedBench,这是一个综合性的基准测试,包括来自医学各领域的40,041个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估,MedBench建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。
Dec, 2023
LLMs在处理医疗保健领域的大量患者记录方面具有潜在的优势,但现有的基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试,每个案例包含5090至6754个单词,我们评估了九个开源LLMs,并将OpenAI的专有成本效益高的GPT-3.5 Turbo作为比较。结果显示,Mixtral-8x7B-Instruct-v0.1在从单个和多个患者文档中检索信息的任务上表现最好,但所有模型在需要识别缺失信息的任务中遇到了很大困难,强调了临床数据解释中需要改进的关键领域。然而,当前LLMs的准确性水平对于可靠的临床使用是不足的,尤其是在需要识别缺失信息的情景中。LongHealth基准测试提供了在医疗保健环境中更真实的LLMs评估,并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。
Jan, 2024
该论文介绍了MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
临床问题解决需要处理语义医学知识,如疾病描述和诊断测试的数值医学知识进行循证决策。因此,我们评估了大型语言模型(LLMs)在数值和语义问题类型上的表现,并将其与人类进行比较。研究发现,LLMs在语义问题上的表现优于数值问题,在不同的医学方面存在差距,仍然不及人类,因此应该谨慎对待它们的医疗建议。
Jun, 2024
本研究介绍了MedExQA,这是一个用于评估大型语言模型对医学知识的理解能力的新型基准,通过构建涵盖五个不同医学专业的数据集,并且为每个问题-答案对提供多个解释,填补了当前医学问答基准的一个重要空白,即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性,提出了一个评估模型超越分类准确性的有效方法,并在特定领域——言语病理学中,揭示了当前GPT4等语言模型理解能力不足的问题。我们的结果表明,使用多个解释进行生成评估更符合人类评估结果,提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型(目前主要基于Llama2),我们还提出了一种新的医学模型MedPhi-2,基于Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于Llama2-70B的医学语言模型,展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。
Jun, 2024
提出了MedOdyssey,首个有7个长度级别(从4K到200K标记)的医学长内容基准,评估了大型语言模型(LLMs)在长文本情境中的性能分析。
Jun, 2024
在中国背景下建立的医学大型语言模型的评估过程,使用MedBench作为一个全面、标准化、可靠的基准系统,提供了最大的评估数据集,包括43个临床专业,实现了动态评估机制,为准备中国医学LLM的实际应用奠定了重要基础。
Jun, 2024
本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性,发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中,小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设,并强调了在医疗人工智能中需要更严格的评估框架。
Aug, 2024
本研究解决了在医疗领域中,通用大语言模型适应性差和计算成本高的问题。我们提出了两个多语言指令微调数据集,并介绍了一种两阶段训练范式,有效结合了医学知识和任务特定问题的训练。实验结果显示,该方法在英语和多语言基准测试中表现出色,推动了多语言医疗模型的应用潜力。
Sep, 2024