Feb, 2024
EHRNoteQA:临床环境下评估大型语言模型的患者特定问题回答基准
EHRNoteQA: A Patient-Specific Question Answering Benchmark for Evaluating Large Language Models in Clinical Settings
Sunjun Kweon, Jiyoun Kim, Heeyoung Kwak, Dongchul Cha, Hangyul Yoon...
TL;DR这项研究介绍了 EHRNoteQA,这是一个为评估临床环境中大型语言模型(LLMs)而定制的创新患者特定问题回答基准。它是首个采用多项选择问题回答格式的数据集,通过分析多个临床记录来回答单个问题,与其他格式相比,在自动评估中有效地评估 LLMs 的可靠性得分。在各种大型语言模型上进行的综合评估表明,它们在 EHRNoteQA 上的得分与通过临床医生评估的真实医学问题的表现更密切相关,凸显了 EHRNoteQA 在评估医学应用的 LLMs 中的重要性,以及它在促进 LLMs 融入医疗系统中的关键作用。该数据集将在 PhysioNet 凭据访问下向公众提供,促进这个重要领域的进一步研究。