大型语言模型是少样本临床信息提取器

EMNLPMay, 2022

大型语言模型是少样本临床信息提取器

Large Language Models are Few-Shot Clinical Information Extractors

Monica Agrawal, Stefan Hegselmann, Hunter Lang, Yoon Kim, David Sontag

TL;DR本文研究了如何使用大型语言模型在缺乏公共医疗语料库和注释的情况下，零和少样本学习从临床文本中提取信息，包括跨度识别、令牌级序列分类和关系提取。通过引入新的 CAS 数据集并进行手动再注释，GPT-3 系统在这些任务上明显优于现有的零和少样本基线。

Abstract

A long-running goal of the clinical nlp community is the extraction of important variables trapped in clinical notes. However, roadblocks have included dataset shift from the general domain and a lack of public clinical corpora and annotations. In this work, we show that large

clinical nlp information extraction language models few-shot learning clinical text

发现论文，激发创造

临床 GPT：基于多样医疗数据微调的大型语言模型和全面评估

本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT，通过整合大量临床实际数据、领域特定知识和多轮次对话信息，使其更好地处理多种临床任务，并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型，突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。

Jun, 2023

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca）在 13 项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在 QA 任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型（如 PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

反思 GPT-3 在生物医学信息提取中的上下文学习

本研究比较了 GPT-3 和较小的预训练语言模型在少样本情况下在生物医学信息提取的性能，结果显示 GPT-3 的性能显著低于较小的预训练模型，同时对于信息提取任务可能会存在问题。因此作者建议在生物医学领域使用较小的预训练语言模型进行微调。

Mar, 2022

使用预训练语言模型和提示的小样本学习，为低资源语言提取临床信息

使用轻量级蒙特卡洛语言模型，自动生成医疗信息，以及进行临床文件，低资源环境下的可解释性研究。

Mar, 2024

大型语言模型与监督建模在乳腺癌病理分类中零样本推理的比较研究

通过对 769 份乳腺癌病理报告进行人工标注的数据集的研究，我们比较了 GPT-4 模型和 GPT-3.5 模型的零样本分类能力与三种模型架构的监督分类性能，发现 GPT-4 模型在所有 13 个任务中要么显著优于要么与最佳监督模型的 LSTM-Att 模型相当（平均宏 F1 得分为 0.83 vs. 0.75）。研究还表明，如果难以使用大规模标注数据集，LLMs 可以减轻数据标注的负担，但使用带有大规模标注数据集的简单监督模型也可以提供可比较的结果，LLMs 可以加快临床自然语言处理研究的执行速度，提高 NLP 变量和结果在临床观察研究中的利用率。

Jan, 2024

生物医学自然语言处理中的大型语言模型：基准、基线和建议

本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现，并对其识别错误进行了分析，提出了在 BioNLP 应用中使用 LLMs 的建议。

May, 2023

多语言语言模型的少样本学习

本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力，实验结果表明，通过多语言提示方案，在许多任务中，模型可以在少量示例和无样本学习中完成良好的表现。

Dec, 2021

三种语言下的少样本临床实体识别：掩码语言模型优于 LLM 提示

对于临床实体识别任务，大型语言模型的少样本能力在低资源环境下取得高性能，但在临床领域，轻量级的监督标注模型结合掩蔽语言模型的表现更好，并且二者的 CO2 排放量相对较低。

Feb, 2024

基于 Few-Shot 的跨语言迁移方法用于混合代码临床文本的粗粒度去识别化

本文实证展示了预训练语言模型在多语言跨领域少样本学习任务中的交叉语言迁移特性，并将其应用于解决缺乏数据和真实世界挑战的混合代码（西班牙语 - 加泰罗尼亚语）临床笔记：保护个人隐私信息的命名实体识别。

Apr, 2022