生物医学 NER 的 LLM 实时定义增强
使用弱监督和微调大型语言模型(LLM)的方法,在几乎没有领域知识的情况下,能够在性能上显著优于传统的有限的标准数据的监督方法,利用基于提示的方法,LLM 生成弱标记数据来训练下游的 BERT 模型,然后将弱监督模型进一步在少量的标准数据上进行微调,通过评估发现该方法优于 out-of-the-box PubMedBERT 4.7% 至 47.9% 的 F1 得分。
Jun, 2024
通过语义扰动和特定领域词汇替换生成合成示例,并添加数值和定量推理新任务,以改进生物医学临床试验中自然语言推理模型的鲁棒性,结合多任务学习和 DeBERTa 结构,相较于原始语言模型在 NLI4CT 2024 基准上取得了显著的性能改进。
Apr, 2024
通过使用专有和开源的大型语言模型(LLMs)与生物医学研究中常用的多种基于规则的归一化系统相结合,提高实体归一化性能并消除了需要微调的需要。
May, 2024
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力,通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集,确定了该方法的有效性,并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明,使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀,ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好,但在某些情况下,它们的效益会下降。
May, 2023
提出了 $LLM-DA$,这是基于大型语言模型的一种新的数据增强技术,适用于少样本的命名实体识别任务,并实验证明该方法在有限数据情况下能有效提升模型性能。
Feb, 2024
本文探讨了使用 GPT-4 作为人工标注的替代品来提供低资源阅读理解任务的性能,通过精细调节后的性能和标注成本的对比,这是对 LLMs 作为合成数据增广器用于 QA 系统的第一次分析,强调了这一独特的机遇和挑战,并提供了低资源数据集的增广版本,为生成数据集的评估提供了进一步的基准。
Sep, 2023
本文研究了大型语言模型(如 GPT-4)存在的挑战,特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战,旨在增强对此类错误的理解和缓解,从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外,我们证明了在正确校准的情况下,可能实现自动评分 —— 这一发现表明,至少在某种程度上,LLMs 可以用于自我检验其性能质量。最后,我们描述了一个实验平台,可以被视为对本文描述的技术的概念验证。
Dec, 2023
我们评估了 GPT 在四个封闭式生物医学机器阅读理解基准测试上的表现,提出了一种名为 Implicit Retrieval Augmented Generation(IRAG)的提示策略,该策略通过减少传统 RAG 设置中使用向量数据库检索重要部分的需求来解决 LLM 所固有的检索问题,并通过定性评估展示了该方法的自然语言生成输出。实验结果表明,我们的新提示技术在四个数据集中有两个取得了最佳效果,并在其余两个中排名第二。实验还表明,像 GPT 这样的现代 LLM,即使在零 - shot 设置中,也能胜过监督模型,从而在两个基准测试中取得了最新技术水平的成果。
May, 2024
提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案,从而赋予 LLM 创建高质量增强数据用于不同的下游任务的能力。在 26 个少样本学习任务中,该方法一致生成比非 LLM 和基于 LLM 的数据增强方法质量更好的增强数据,表现最佳。
Apr, 2024