我们是否还需要临床语言模型?
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024
大型语言模型在医疗保健领域的部署引发了热情和忧虑,本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能,从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹,特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。
Dec, 2023
最近,大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而,尽管在各种任务中取得了成功,但以前的研究尚未调查它们在生物医学领域的能力。为此,本文旨在评估 LLMs 在基准生物医学任务中的性能。为此,我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知,这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是,基于我们的评估结果我们发现,在具有较小训练集的生物医学数据集中,零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明,在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现,在所有任务中没有单个 LLM 能够胜过其他 LLMs,不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比,它们的性能仍然相当差,但我们的研究结果表明,LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。
Oct, 2023
本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示(SQP),来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能,同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。
Apr, 2023
使用大型语言模型(LLMs)进行医疗领域各种任务的工具和解决方案的使用日益增多,然而在这个高度关键和敏感的领域中,它们的稳健性以及所生成结果的可信度已经引起重要的问题。本研究通过构建基于 ICD-10-CM 代码描述的文本数据集来回答这些问题,该代码广泛应用于美国医院并包含许多临床术语及其易于复述。然后,我们对现有的嵌入模型进行了基准测试,无论是专门针对临床领域的模型还是通用模型,在一个语义搜索任务中,目标是将复述文本正确匹配到原始描述。我们的结果表明,通用模型的表现优于临床模型,这表明现有的临床专门模型更加敏感于输入的微小变化,从而使它们感到困惑。临床专门模型的突出问题可能是因为它们在训练时数据不够充分,特别是在没有足够多样化的数据集进行全局语言理解的情况下,而这对于准确处理医疗文档仍然是必要的。
Jan, 2024
在这篇论文中,我们回顾了大型语言模型(LLMs)的发展,重点关注医学 LLMs 的需求和应用。我们提供了现有模型的简要概述,旨在探索进一步的研究方向并使其对未来医学应用产生益处。我们强调了医学 LLMs 在应用中的优势,以及其发展过程中遇到的挑战。最后,我们提出了技术整合的方向来减轻挑战,并为医学 LLMs 的未来研究方向提供了建议,旨在更好地满足医学领域的需求。
May, 2024
通过研究多语言神经网络模型,使用深度学习,如基于 Transformer 的结构,我们在临床文本机器翻译方面进行了调查。此外,为了解决语言资源不平衡问题,我们还使用基于大规模多语言预训练语言模型(MMPLMs)的迁移学习方法进行了实验。在临床案例(CC)、临床术语(CT)和本体概念(OC)等三个子任务上的实验结果表明,我们的模型在 ClinSpEn-2022 共享任务中的英语 - 西班牙语临床领域数据中表现出了最佳水平。此外,基于专家评估的人工评估结果显示,小型预训练语言模型(PLM)在临床领域微调中以大幅度优于其他两个超大型语言模型,这是该领域前所未有的发现。最后,迁移学习方法在我们的实验设置中运行良好,使用 WMT21fb 模型适应了预训练阶段在 WMT21fb 中未见的西班牙语语言空间,这值得进一步探索临床知识转化方面,例如研究更多语言。这些研究结果可以为特定领域的机器翻译开发提供一些启示,尤其是在临床和医疗领域。在我们的工作基础上可以开展进一步的研究项目,以改进医疗文本分析和知识转化。
Dec, 2023
利用临床数据训练的大型语言模型在医疗保健领域提供了优化患者护理、临床决策和工作流程的新机会,然而其潜力主要取决于其在不同临床环境和患者群体中有效泛化的能力,这是一个常常被低估的挑战。本研究评估了一种在 [HOSPITAL] 的临床病历上训练的语言模型的性能,并发现其在少样本的医院、政府和未指定保险的患者、老年人以及多重共病者中的泛化能力较差。通过统计和分类分析,我们发现样本大小、患者年龄、共病程度和病历内容的字数都与泛化能力相关。最后,我们比较了三种方法以提高泛化能力:本地微调(针对特定医院)、实例化增强微调、和基于聚类的微调。结果表明,本地微调是最有效的方法,可以使 AUC 提高 0.25% 到 11.74%(在数据有限的情况下效果最好)。总体来说,本研究为在医疗保健这一重要领域部署大型语言模型提供了新的见解,并改进了它们在更广泛人群中的性能。
Feb, 2024