Jan, 2024

LongHealth:具有长医疗文件的问答基准

TL;DRLLMs在处理医疗保健领域的大量患者记录方面具有潜在的优势,但现有的基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试,每个案例包含5090至6754个单词,我们评估了九个开源LLMs,并将OpenAI的专有成本效益高的GPT-3.5 Turbo作为比较。结果显示,Mixtral-8x7B-Instruct-v0.1在从单个和多个患者文档中检索信息的任务上表现最好,但所有模型在需要识别缺失信息的任务中遇到了很大困难,强调了临床数据解释中需要改进的关键领域。然而,当前LLMs的准确性水平对于可靠的临床使用是不足的,尤其是在需要识别缺失信息的情景中。LongHealth基准测试提供了在医疗保健环境中更真实的LLMs评估,并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。