Jan, 2024

LongHealth:具有长医疗文件的问答基准

TL;DRLLMs 在处理医疗保健领域的大量患者记录方面具有潜在的优势,但现有的基准测试不能充分评估 LLMs 在处理真实世界中的冗长临床数据方面的能力。通过提供包含 20 个详细虚构病例的 LongHealth 基准测试,每个案例包含 5090 至 6754 个单词,我们评估了九个开源 LLMs,并将 OpenAI 的专有成本效益高的 GPT-3.5 Turbo 作为比较。结果显示,Mixtral-8x7B-Instruct-v0.1 在从单个和多个患者文档中检索信息的任务上表现最好,但所有模型在需要识别缺失信息的任务中遇到了很大困难,强调了临床数据解释中需要改进的关键领域。然而,当前 LLMs 的准确性水平对于可靠的临床使用是不足的,尤其是在需要识别缺失信息的情景中。LongHealth 基准测试提供了在医疗保健环境中更真实的 LLMs 评估,并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。