生物医学 NER 的 LLM 实时定义增强

ACLMar, 2024

On-the-fly Definition Augmentation of LLMs for Biomedical NER

Monica Munnangi, Sergey Feldman, Byron C Wallace, Silvio Amir, Tom Hope...

TL;DR通过新的知识增强方法，在有限数据环境中加入相关概念的定义，改进 LLMs 在生物医学命名实体识别方面的性能。

Abstract

Despite their general capabilities, llms still struggle on biomedical ner tasks, which are difficult due to the presence of specialized terminology and lack of training data. In this work we set out to improve LL

llms biomedical ner knowledge augmentation promoting strategies limited data settings

发现论文，激发创造

利用大型语言模型进行临床自然语言处理中基于无知识弱监督的优化

使用弱监督和微调大型语言模型（LLM）的方法，在几乎没有领域知识的情况下，能够在性能上显著优于传统的有限的标准数据的监督方法，利用基于提示的方法，LLM 生成弱标记数据来训练下游的 BERT 模型，然后将弱监督模型进一步在少量的标准数据上进行微调，通过评估发现该方法优于 out-of-the-box PubMedBERT 4.7% 至 47.9% 的 F1 得分。

Jun, 2024

在 SemEval-2024 任务 2 中的 DKE 研究：结合数据增强、生成模型和生物医学知识提高推理鲁棒性

通过语义扰动和特定领域词汇替换生成合成示例，并添加数值和定量推理新任务，以改进生物医学临床试验中自然语言推理模型的鲁棒性，结合多任务学习和 DeBERTa 结构，相较于原始语言模型在 NLI4CT 2024 基准上取得了显著的性能改进。

Apr, 2024

通用可扩展的多阶段生物医学概念标准化利用大型语言模型

通过使用专有和开源的大型语言模型（LLMs）与生物医学研究中常用的多种基于规则的归一化系统相结合，提高实体归一化性能并消除了需要微调的需要。

May, 2024

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

大型语言模型的生物医学知识图增强提示生成

提出了一种融合知识图谱和大型语言模型的框架，通过优化方式，增强了通用型语言模型适应处理领域特定问题的能力。

Nov, 2023

LLM-DA: 大型语言模型在少样本命名实体识别中的数据增强

提出了 $LLM-DA$，这是基于大型语言模型的一种新的数据增强技术，适用于少样本的命名实体识别任务，并实验证明该方法在有限数据情况下能有效提升模型性能。

Feb, 2024

LLM 能增强低资源阅读理解数据集吗？机遇和挑战

本文探讨了使用 GPT-4 作为人工标注的替代品来提供低资源阅读理解任务的性能，通过精细调节后的性能和标注成本的对比，这是对 LLMs 作为合成数据增广器用于 QA 系统的第一次分析，强调了这一独特的机遇和挑战，并提供了低资源数据集的增广版本，为生成数据集的评估提供了进一步的基准。

Sep, 2023

背景问题：为科学应用数据高效扩充的大型语言模型

本文研究了大型语言模型（如 GPT-4）存在的挑战，特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战，旨在增强对此类错误的理解和缓解，从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外，我们证明了在正确校准的情况下，可能实现自动评分 —— 这一发现表明，至少在某种程度上，LLMs 可以用于自我检验其性能质量。最后，我们描述了一个实验平台，可以被视为对本文描述的技术的概念验证。

Dec, 2023

GPT 能否重新定义医学认识？对生物医学机器阅读理解中的 GPT 进行评估

我们评估了 GPT 在四个封闭式生物医学机器阅读理解基准测试上的表现，提出了一种名为 Implicit Retrieval Augmented Generation（IRAG）的提示策略，该策略通过减少传统 RAG 设置中使用向量数据库检索重要部分的需求来解决 LLM 所固有的检索问题，并通过定性评估展示了该方法的自然语言生成输出。实验结果表明，我们的新提示技术在四个数据集中有两个取得了最佳效果，并在其余两个中排名第二。实验还表明，像 GPT 这样的现代 LLM，即使在零 - shot 设置中，也能胜过监督模型，从而在两个基准测试中取得了最新技术水平的成果。

May, 2024

为文本数据增强赋能大型语言模型

提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案，从而赋予 LLM 创建高质量增强数据用于不同的下游任务的能力。在 26 个少样本学习任务中，该方法一致生成比非 LLM 和基于 LLM 的数据增强方法质量更好的增强数据，表现最佳。

Apr, 2024