生物医学大语言模型似乎不如通用模型在未见医疗数据上的表现

Aug, 2024

生物医学大语言模型似乎不如通用模型在未见医疗数据上的表现

Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data

Felix J. Dorfner, Amin Dada, Felix Busch, Marcus R. Makowski, Tianyu Han...

TL;DR本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性，发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中，小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设，并强调了在医疗人工智能中需要更严格的评估框架。

Abstract

Large language models (LLMs) have shown potential in biomedical applications, leading to efforts to fine-tune them on domain-specific data. However, the effectiveness of this approach remains unclear. This study evaluates the performance of biomedically fine-tuned LLMs against their general-purpose counterparts on a variety of →

发现论文，激发创造

我们是否还需要临床语言模型？

通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、更高效的专业化临床模型。

Feb, 2023

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估LLMs在基准生物医学任务中的性能。为此，我们对26个数据集中6个不同生物医学任务的4种流行LLMs进行了全面评估。据我们所知，这是第一次在生物医学领域对各种LLMs进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的LLMs甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使LLMs在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个LLM能够胜过其他LLMs，不同LLMs的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

医疗领域中的大型语言模型：综述

大型语言模型在医疗保健领域的部署引发了热情和忧虑，本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能，从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹，特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。

Dec, 2023

CLUE: 用于LLMs的临床语言理解评估

为填补现有研究中缺乏对医疗领域广泛应用的临床任务的评估的空白，我们提出了一种适用于现实世界临床任务的基准测试工具 CLUE，并通过评估多个生物医学和通用领域 LLMs 的临床表现和适用性，推进医疗领域的 LLMs 评估和开发的标准化方法。

Apr, 2024

生物医学中的LLMs：临床命名实体识别研究

该研究探讨了大型语言模型在医学领域中的应用，通过策略性地选择和设计提示语，增强模型在命名实体识别任务中的性能，并结合外部资源通过提示策略填补医学命名实体识别领域中的专业需求与通用语言模型之间的差距，最终提出的方法能够提高大型语言模型在医学命名实体识别任务中的 F1 分数。

Apr, 2024

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

通用可扩展的多阶段生物医学概念标准化利用大型语言模型

通过使用专有和开源的大型语言模型（LLMs）与生物医学研究中常用的多种基于规则的归一化系统相结合，提高实体归一化性能并消除了需要微调的需要。

May, 2024

医学领域的大型语言模型综述：技术、应用、可信度与未来发展方向

综述医疗大型自然语言模型（Med-LLM）的进化历史、技术、应用以及对医疗保健的影响，涵盖临床决策支持、报告生成、医学教育等方面，探索其潜力和限制，并讨论公平性、责任感、隐私保护和鲁棒性等挑战，展望未来的发展方向。

Jun, 2024

针对增强长上下文理解和领域专业知识的优化医学语言模型微调

本研究旨在调查医学类大型语言模型在理解长上下文方面性能下降的现象，并通过调整Fine-tuning过程中常规数据与医学数据的比例和数量，确定最佳数据组成，以优化专业模型并在长上下文性能和特定领域知识之间实现平衡。

Jul, 2024

生物医学中大型语言模型的调查

本研究针对现有生物医学领域大型语言模型(LLMs)文献缺乏综合分析的现状，进行了深入探讨。文章分析了484篇相关文献，探讨了LLMs在诊断辅助、药物发现和个性化医疗等任务中的能力，并指出在特定应用中提高模型表现的调适策略。此外，研究还揭示了数据隐私、模型可解释性等挑战，并提出未来的研究方向。

Aug, 2024