大型语言模型是少样本临床信息提取器
本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT,通过整合大量临床实际数据、领域特定知识和多轮次对话信息,使其更好地处理多种临床任务,并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型,突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。
Jun, 2023
评估四个最先进的面向指令的大型语言模型(ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca)在 13 项真实世界的临床和生物医学自然语言处理(NLP)任务,如命名实体识别(NER)、问答(QA)、关系抽取(RE)等方面的表现。总体结果表明,评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能,尤其在 QA 任务中表现出色,即使它们之前从未见过这些任务的示例。然而,我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型(如 PubMedBERT)所能达到的水平。最后,我们注意到没有一个语言模型在所有研究任务中都胜过其他模型,某些模型在特定任务中更适合。
Jul, 2023
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
本研究比较了 GPT-3 和较小的预训练语言模型在少样本情况下在生物医学信息提取的性能,结果显示 GPT-3 的性能显著低于较小的预训练模型,同时对于信息提取任务可能会存在问题。因此作者建议在生物医学领域使用较小的预训练语言模型进行微调。
Mar, 2022
通过对 769 份乳腺癌病理报告进行人工标注的数据集的研究,我们比较了 GPT-4 模型和 GPT-3.5 模型的零样本分类能力与三种模型架构的监督分类性能,发现 GPT-4 模型在所有 13 个任务中要么显著优于要么与最佳监督模型的 LSTM-Att 模型相当(平均宏 F1 得分为 0.83 vs. 0.75)。研究还表明,如果难以使用大规模标注数据集,LLMs 可以减轻数据标注的负担,但使用带有大规模标注数据集的简单监督模型也可以提供可比较的结果,LLMs 可以加快临床自然语言处理研究的执行速度,提高 NLP 变量和结果在临床观察研究中的利用率。
Jan, 2024
本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现,并对其识别错误进行了分析,提出了在 BioNLP 应用中使用 LLMs 的建议。
May, 2023
本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力,实验结果表明,通过多语言提示方案,在许多任务中,模型可以在少量示例和无样本学习中完成良好的表现。
Dec, 2021
对于临床实体识别任务,大型语言模型的少样本能力在低资源环境下取得高性能,但在临床领域,轻量级的监督标注模型结合掩蔽语言模型的表现更好,并且二者的 CO2 排放量相对较低。
Feb, 2024
本文实证展示了预训练语言模型在多语言跨领域少样本学习任务中的交叉语言迁移特性,并将其应用于解决缺乏数据和真实世界挑战的混合代码(西班牙语 - 加泰罗尼亚语)临床笔记:保护个人隐私信息的命名实体识别。
Apr, 2022