通用嵌入模型在短上下文临床语义搜索中的表现优于专门嵌入模型

Jan, 2024

通用嵌入模型在短上下文临床语义搜索中的表现优于专门嵌入模型

Generalist embedding models are better at short-context clinical semantic search than specialized embedding models

Jean-Baptiste Excoffier, Tom Roehr, Alexei Figueroa, Michalis Papaaioannou, Keno Bressem...

TL;DR使用大型语言模型（LLMs）进行医疗领域各种任务的工具和解决方案的使用日益增多，然而在这个高度关键和敏感的领域中，它们的稳健性以及所生成结果的可信度已经引起重要的问题。本研究通过构建基于 ICD-10-CM 代码描述的文本数据集来回答这些问题，该代码广泛应用于美国医院并包含许多临床术语及其易于复述。然后，我们对现有的嵌入模型进行了基准测试，无论是专门针对临床领域的模型还是通用模型，在一个语义搜索任务中，目标是将复述文本正确匹配到原始描述。我们的结果表明，通用模型的表现优于临床模型，这表明现有的临床专门模型更加敏感于输入的微小变化，从而使它们感到困惑。临床专门模型的突出问题可能是因为它们在训练时数据不够充分，特别是在没有足够多样化的数据集进行全局语言理解的情况下，而这对于准确处理医疗文档仍然是必要的。

Abstract

The increasing use of tools and solutions based on large language models (LLMs) for various tasks in the medical domain has become a prominent trend. Their use in this highly critical and sensitive domain has thu

large language models medical domain robustness icd-10-cm code descriptions semantic search task

发现论文，激发创造

我们是否还需要临床语言模型？

通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、更高效的专业化临床模型。

Feb, 2023

开发医疗语言模型嵌入空间

我们探索专门为不同医疗数据集调整较小的大型语言模型（LLMs）的专业预训练方法。我们通过传统的掩码语言建模、无监督文本表示的深度对比学习（DeCLUTR）以及利用医疗设置中的元数据类别的新型预训练目标进行了评估。对每个数据集进行了对下游文档分类任务的评估，并分析了生成的嵌入空间。对比训练的模型在分类任务上表现优于其他方法，以有限的标记数据实现了强大性能，并且所需的模型参数更新更少。虽然基于元数据的预训练无法进一步改进数据集上的分类，但它提供了有趣的嵌入簇可分离性。所有领域适应的 LLMs 在性能上均优于公开可用的通用基础 LLM，验证了领域专业化的重要性。这项研究展示了在有限的计算预算下将医疗能力注入紧凑的 LLMs 的高效方法，这是在本地医疗环境中负责任和可持续部署的关键能力。我们提供专门针对医疗 LLMs 的预训练指南，推动对对比目标的持续研究，并演示了将小型 LLMs 与涉及隐私敏感的医疗任务保持一致的适应技术。

Mar, 2024

公开可用的临床 BERT 嵌入

本文探讨了基于词汇的上下文嵌入模型在临床领域的应用，发现相对于通用语料库，专业领域语料库下的 BERT 模型在三个典型的临床自然语言处理任务上表现更加出色。

Apr, 2019

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现 GPT-4 整体表现优于其他 LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证 LLMs 在处理复杂医学数据方面的能力，并为将来在专门领域的 LLM 评估建立基准。

Jan, 2024

医疗人工智能中的泛化性能评估

利用临床数据训练的大型语言模型在医疗保健领域提供了优化患者护理、临床决策和工作流程的新机会，然而其潜力主要取决于其在不同临床环境和患者群体中有效泛化的能力，这是一个常常被低估的挑战。本研究评估了一种在 [HOSPITAL] 的临床病历上训练的语言模型的性能，并发现其在少样本的医院、政府和未指定保险的患者、老年人以及多重共病者中的泛化能力较差。通过统计和分类分析，我们发现样本大小、患者年龄、共病程度和病历内容的字数都与泛化能力相关。最后，我们比较了三种方法以提高泛化能力：本地微调（针对特定医院）、实例化增强微调、和基于聚类的微调。结果表明，本地微调是最有效的方法，可以使 AUC 提高 0.25% 到 11.74%（在数据有限的情况下效果最好）。总体来说，本研究为在医疗保健这一重要领域部署大型语言模型提供了新的见解，并改进了它们在更广泛人群中的性能。

Feb, 2024

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024

利用文本嵌入模型和向量数据库作为文本分类器的例子 —— 以医疗数据为例

利用大语言模型、向量嵌入模型和向量数据库来分类医生的病例笔记，以了解这些方法的局限性和未来潜在应用的前景。

Feb, 2024

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

基于临床记录抽取的不同表征模型评估死亡率预测

本研究基于 Transformers 预训练的语言表示学习方法，将特定医学记录中的信息提取，映射到标准词汇中，并在医院死亡预测任务中测试不同输入格式的性能，结果表明使用提取的唯一概念和标准名称作为输入可以获得更好的性能。

Jul, 2022

从大规模临床记录中开发出通用的临床语言推断模型

本文通过使用领域专有词汇和大规模临床训练语料库，使用双向编码器解码器（BERT）模型对医疗语言推理任务进行分析和评估，与公共基准任务上同等规模的公开可用的最佳生物医学语言模型相比，我们的模型表现相同，并且在使用 UCSF 数据的两个任务的系统内评估中优于这些模型，但需要进一步的研究来提高缩写、数字、时间和隐含因果推理的准确性。

Oct, 2022