Jan, 2024

通用嵌入模型在短上下文临床语义搜索中的表现优于专门嵌入模型

TL;DR使用大型语言模型(LLMs)进行医疗领域各种任务的工具和解决方案的使用日益增多,然而在这个高度关键和敏感的领域中,它们的稳健性以及所生成结果的可信度已经引起重要的问题。本研究通过构建基于 ICD-10-CM 代码描述的文本数据集来回答这些问题,该代码广泛应用于美国医院并包含许多临床术语及其易于复述。然后,我们对现有的嵌入模型进行了基准测试,无论是专门针对临床领域的模型还是通用模型,在一个语义搜索任务中,目标是将复述文本正确匹配到原始描述。我们的结果表明,通用模型的表现优于临床模型,这表明现有的临床专门模型更加敏感于输入的微小变化,从而使它们感到困惑。临床专门模型的突出问题可能是因为它们在训练时数据不够充分,特别是在没有足够多样化的数据集进行全局语言理解的情况下,而这对于准确处理医疗文档仍然是必要的。