Jun, 2024

MedExQA:具备多重解释的医学问答基准

TL;DR本研究介绍了MedExQA,这是一个用于评估大型语言模型对医学知识的理解能力的新型基准,通过构建涵盖五个不同医学专业的数据集,并且为每个问题-答案对提供多个解释,填补了当前医学问答基准的一个重要空白,即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性,提出了一个评估模型超越分类准确性的有效方法,并在特定领域——言语病理学中,揭示了当前GPT4等语言模型理解能力不足的问题。我们的结果表明,使用多个解释进行生成评估更符合人类评估结果,提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型(目前主要基于Llama2),我们还提出了一种新的医学模型MedPhi-2,基于Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于Llama2-70B的医学语言模型,展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。