大模型总是更好吗?评估和提示大型语言模型在非生成性医学任务中的表现
通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、 更高效的专业化临床模型。
Feb, 2023
评估四个最先进的面向指令的大型语言模型(ChatGPT、Flan-T5 UL2、Tk-Instruct和Alpaca)在13项真实世界的临床和生物医学自然语言处理(NLP)任务,如命名实体识别(NER)、问答(QA)、关系抽取(RE)等方面的表现。总体结果表明,评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能,尤其在QA任务中表现出色,即使它们之前从未见过这些任务的示例。然而,我们观察到分类和RE任务的性能低于专门训练用于医学领域的模型(如PubMedBERT)所能达到的水平。最后,我们注意到没有一个语言模型在所有研究任务中都胜过其他模型,某些模型在特定任务中更适合。
Jul, 2023
最近,大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而,尽管在各种任务中取得了成功,但以前的研究尚未调查它们在生物医学领域的能力。为此,本文旨在评估LLMs在基准生物医学任务中的性能。为此,我们对26个数据集中6个不同生物医学任务的4种流行LLMs进行了全面评估。据我们所知,这是第一次在生物医学领域对各种LLMs进行广泛评估和比较。有趣的是,基于我们的评估结果我们发现,在具有较小训练集的生物医学数据集中,零次矫正的LLMs甚至在效果上超过了当前最先进的生物医学模型。这表明,在大型文本语料库上进行预训练使LLMs在生物医学领域具有了相当专业的能力。我们还发现,在所有任务中没有单个LLM能够胜过其他LLMs,不同LLMs的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比,它们的性能仍然相当差,但我们的研究结果表明,LLMs在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。
Oct, 2023
大型语言模型在医疗保健领域的部署引发了热情和忧虑,本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能,从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹,特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。
Dec, 2023
针对结构化长期电子健康记录 (EHR) 数据与大型语言模型 (LLMs) 集成时的固有复杂性,本研究调查了像 GPT-4 这样的LLMs 对 EHR 数据的适应性。特别关注其零样本能力,使其能够在并未明确训练的情况下进行预测。通过考虑特定的EHR特征(如单位和参考范围),采用与临床环境相一致的上下文学习策略,我们的寻求方法能够应对 EHR 数据的纵向、稀疏和知识注入的特性。通过对 MIMIC-IV 和 TJH 数据集进行综合实验,证明了我们精心设计的提示框架下,LLMs在关键任务(如死亡率、住院天数和30天再入院率)的预测性能可以提高约35%,在少样本情景中超越了机器学习模型。我们的研究强调了LLMs在提高临床决策能力方面的潜力,尤其是在没有标签数据的紧急医疗情况下,如新发疾病的爆发。可通过此 https URL 获得代码,以便能重现研究结果。
Jan, 2024
综述探讨了在医疗保健领域中应用大型语言模型 (LLMs) 的广泛应用和必要的评估,强调了充分利用这些模型提升医疗保健结果的能力的关键验证需求。
Apr, 2024
综述医疗大型自然语言模型(Med-LLM)的进化历史、技术、应用以及对医疗保健的影响,涵盖临床决策支持、报告生成、医学教育等方面,探索其潜力和限制,并讨论公平性、责任感、隐私保护和鲁棒性等挑战,展望未来的发展方向。
Jun, 2024
本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性,发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中,小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设,并强调了在医疗人工智能中需要更严格的评估框架。
Aug, 2024
本研究针对大型语言模型在医疗领域应用中的评估需求,提供了对多种医疗基准数据集的全面调查。这些数据集涵盖文本、图像及多模态内容,针对电子健康记录和临床任务的发展,提出了多样化数据集的重要性及其对医学人工智能的潜在影响。
Oct, 2024