Feb, 2024

EHRNoteQA:临床环境下评估大型语言模型的患者特定问题回答基准

TL;DR这项研究介绍了 EHRNoteQA,这是一个为评估临床环境中大型语言模型(LLMs)而定制的创新患者特定问题回答基准。它是首个采用多项选择问题回答格式的数据集,通过分析多个临床记录来回答单个问题,与其他格式相比,在自动评估中有效地评估 LLMs 的可靠性得分。在各种大型语言模型上进行的综合评估表明,它们在 EHRNoteQA 上的得分与通过临床医生评估的真实医学问题的表现更密切相关,凸显了 EHRNoteQA 在评估医学应用的 LLMs 中的重要性,以及它在促进 LLMs 融入医疗系统中的关键作用。该数据集将在 PhysioNet 凭据访问下向公众提供,促进这个重要领域的进一步研究。