LongHealth：具有长医疗文件的问答基准

Jan, 2024

LongHealth：具有长医疗文件的问答基准

LongHealth: A Question Answering Benchmark with Long Clinical Documents

Lisa Adams, Felix Busch, Tianyu Han, Jean-Baptiste Excoffier, Matthieu Ortala...

TL;DRLLMs在处理医疗保健领域的大量患者记录方面具有潜在的优势，但现有的基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试，每个案例包含5090至6754个单词，我们评估了九个开源LLMs，并将OpenAI的专有成本效益高的GPT-3.5 Turbo作为比较。结果显示，Mixtral-8x7B-Instruct-v0.1在从单个和多个患者文档中检索信息的任务上表现最好，但所有模型在需要识别缺失信息的任务中遇到了很大困难，强调了临床数据解释中需要改进的关键领域。然而，当前LLMs的准确性水平对于可靠的临床使用是不足的，尤其是在需要识别缺失信息的情景中。LongHealth基准测试提供了在医疗保健环境中更真实的LLMs评估，并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。

Abstract

Background: Recent advancements in large language models (LLMs) offer potential benefits in healthcare, particularly in processing extensive patient records. However, existing benchmarks do not fully assess LLMs' capability in handling real-world, lengthy clinical data. Methods: We pre